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基于 仿生 强化 学 习 型 小 脑 模型 的 在 线 稳定 
控制 仿 人 机 器 人 ,属于 仿 人 机 器 人 领域 ,为 了 解 
决 提 高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平衡 
能 力 的 问题 ,包括 对 仿 人 机 器 人 进行 离线 步 态 规 
划 的 器 件 , 该 器 件 输出 使 仿 人 机 器 人 跟踪 离线 生 
成 的 关节 运动 轨迹 具备 行走 能 力 ;响应 于 离线 步 
态 的 小 脑 模型 控制 器 ,小 脑 模型 控制 器 包括 状态 
编码 模块 、 小 脑 模型 、 下 橄榄 反馈 模块 .运动 映射 
模块 ,状态 编码 模块 根据 仿 人 机 器 人 传感器 采集 
到 的 状态 信息 调整 PF 的 激活 状态 ,下 橄榄 反馈 模 
块 基于 环境 反馈 的 评价 信息 修改 行为 选择 概率 
以 及 小 脑 神经 元 存储 权 值 ,运动 映射 模块 根据 功 
能 模块 输出 调节 机 器 人 动作 ,效果 是 提高 仿 人 机 
器 人 在 行走 过 程 中 的 稳定 与 平衡 能 
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权 利 要 求 书 


1. 一 种 基于 仿生 强化 学 习 型 小 脑 模 型 的 在 线 稳定 控制 仿 人 机 器 人 ,其 特征 在 于 :包括 
对 仿 人 机 器 人 进行 离线 步 态 规划 的 器 件 ,该 器 件 输出 使 仿 人 机 器 人 跟踪 离线 生成 的 关 
节 运 动 轨迹 具备 行走 能 


啊 应 于 离线 步 态 的 小 脑 模型 控制 器 ,小 脑 模型 控制 器 包括 状态 编码 模块 .小 脑 模型 、 下 
橄榄 反馈 模块 、 运 动 映射 模块 ， 


状态 编码 模块 根据 仿 人 机 器 人 传感器 采集 到 的 状态 信息 调整 平行 纤维 (Parallel 
Fibers ,PFP) 的 激活 状态 ,下 橄榄 反馈 模块 基于 环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 
小 脑 神 经 元 存储 权 值 ,运动 映射 模块 根据 功能 模块 输出 调节 机 器 人 动作 ;运动 映射 模块 基 


于 如 下 方式 实现 根据 小 脑 模型 输出 调节 机 器 人 动作 :小 脑 模型 的 输出 由 


基本 单元 的 激活 状 


态 决 定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 基 


本 单元 状态 向 量 ,其 与 命令 映射 向 量 的 点 乘 即 


为 t 时 刻 的 关节 调整 量 , 以 关节 作为 控制 对 象 , 每 一 个 输出 都 直接 作用 于 关节 ,以 电机 作为 
执行 元 件 ,将 模型 视 作 人 体 中 的 关节 -骨骼 -肌肉 系统 ,把 关节 电机 的 正 向 和 逆向 旋转 视 作 
骨骼 肌 的 收缩 与 舒张 ,小 脑 模型 输出 的 调整 量 视 作 神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 ; 
获取 关节 调整 量 基 于 如 下 方式 实现 : 


以 某 一 关节 作为 小 脑 模型 反馈 控制 的 对 象 时 ,其 命令 映射 向 量 

有 =(0 ds ds dd (4.13) 

其 中 ,n 为 基本 单元 个 数 , 4” 是 持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 
1 Ot+EXp, O<t<t 

Ss (4.14) 

“(9) | 其 它 , 


其 中 ,o 是 关节 调整 量 的 基准 值 ,8 是 单位 增 量 ,p 为 调整 量 的 幅 值 参数 ,可 以 调节 输出 命 
令 d2? 的 幅 值 大 小 ,t, 表 示 调 整 过 程 的 持续 时 间 ; 小 脑 模型 学 习 方法 包括 如 下 步 又; 

(1) 初始 化 平行 纤维 (Parallel Fibers,PP) -平行 纤维 (ParallelFibers,PF) 可 塑性 突 
触 权 值 @ 9 星 型 细胞 (Stellate Cell,SC) 、 篮 细胞 (Basket Cell,BC) 与 浦 肯 野 细胞 
(Purkinje Cell,P0) 之 间 联 结 形成 的 突 触 的 权 值 wx ，Q 和 行为 选择 概率 7 (a) ; 

(2) 状态 编码 模块 根据 机 器 人 传感器 信息 ,确定 小 脑 模 型 状态 s,; 

(3) 基于 当前 策略 ,选择 并 执行 行为 a ,获得 状态 s, 和 立即 回报 值 7 ， 更 新 状态 值 函 
数 ; 

(4 计算 上 一 步行 为 的 TD 误差 5 ,更 新 行为 选择 概率 r, (a) ,并 根据 攀缘 纤维 (Climbing 
Fibers,CP) 反馈 信息 修改 相关 突 触 突 触 权 值 ，; 

(5) 判断 该 轮 学 习 是 否 结 来 ， 术 络 束 则 回 到 步 


又 (2) 继续 执行 学 习 过 程 ;否则 ,对 系统 进 


行 重 置 ,并 开始 下 一 轮 学 习 过 程 ,直到 整个 


学 习 过 程 结束 ; 


所 述 的 状态 编码 模块 :接收 仿 人 机 器 人 的 状态 信号 ,将 其 


投射 为 小 脑 模 型 中 平行 纤维 


(Parallel Fibers,PF) 状态 , 苔 艾 纤 维 (Mossy Fibers ,MP) 接收 小 脑 外 部 输入 的 本 体感 受 
信息 ,传递 给 颗粒 细胞 (Granule Cell ,G0) 进行 信息 的 编码 ,一 条 苔 从 纤维 (Mossy Fibers， 
MP) 会 与 多 个 颗粒 细胞 (Granule Cell,6G0) 形成 突 触 联系 ,小 脑 关 联 控制 器 (Cerebellar 
Model Articulation Controller,CMAC) 是 基于 权 值 存储 的 神经 网 络 ,小 脑 关 联 控制 器 
(Cerebellar Model Articulation Controller ,CMAO) 的 权 值 通过 “ 查 表 ” 来 获得 ,小 脑 关 
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联 控 制 器 (Cerebellar Model Articulation Controller,CMAO) 的 输入 输出 过 程 分 为 两 个 
阶段 :第 一 阶段 ,输入 信息 在 各 维度 上 都 能 找到 唯一 与 之 对 应 的 一 组 逻辑 分 区 ,每 个 逻辑 分 
区 都 能 在 实际 存储 器 找到 这 些 分 区 对 应 的 权 值 ;第 三 阶段 ,通过 加 权 求 和 的 方式 累加 第 一 
阶段 找到 的 权 值 ,得 到 小 脑 关 联 控制 器 (Cerebellar Model Articulation Controller， 
CMAC) 网 络 的 输出 ; 

所 述 的 小 脑 模型 :遵循 小 脑 的 神经 联结 结构 与 电信 号 传导 过 程 ,平行 纤维 (Parallel 
Fibers,PF) 传递 仿 人 机 器 人 连续 状态 信息 的 编码 信号 ,输入 信号 经 由 状态 编码 模块 被 投射 
到 相关 区 域 , 篮 细 胞 (Basket Cel1,BC) 和 星 型 细胞 Stellate Cel1,SC) 在 此 过 程 中 被 激发 
处 于 兴奋 状态 ,并 将 表示 篮 细 胞 (Basket Cel1,BC) 和 星 型 细胞 (Stellate Cel1,SC) 状态 信 
奶 的 参数 s 和 bj 设置 为 “1”, @/ 与 @/ 表 示 段 细胞 (Basket Cell,BC) 、 星 型 细胞 (Stellate 
Cel1l,SC) 与 浦 肯 对 细胞 (PurkinjeCell,PC) 之 间 联 结 形成 的 突 触 的 权 值 ,由 于 篮 细 胞 
(BasketCell ,BO) 与 星 型 细胞 (StellateCel1,SC) 对 浦 肯 野 细胞 (PurkinjeCel1,PO 起 到 抑 
制 的 作用 ,所 以 其 权 值 也 赋予 相应 的 负 值 , 浦 肯 野 细胞 (PurkinjeCel1,PC) 的 膜 电位 值 Pj 
(t) 计算 如 下 : 


P(t)= VPR (0) (t+ os+ ob, (4.1) 
= 


其 中 ,Pi (t) 表示 t 时 刻 浦 表 野 细胞 (Purkinje Cell,PO) 的 膜 电位 值 ,Pi t) 具有 二 值 性 ， 
分 别 使 用 “0” 和 “1” 表示 “抑制 "和 “激活 ” 两 种 状态 ; we ;;(t) 是 平行 纤维 (ParallelFibers， 
PP) - 浦 肯 时 细胞 (Purkinje Cell,PO) 可 塑性 突 触 中 存储 的 权 值 ,代表 了 突 触 状态 对 浦 肯 野 
细胞 (Purkinje Cell,PC) 膜 电 位 的 影响 ,其 中 ,i 二 1,2,...,N 表 示 第 i 个 平行 纤维 
(Parallel Fibers,PF) ,j 二 1,2,...,M 表 示 第 j 个 浦 肯 野 细胞 (Purkinje Cell,PC) ;PF (t) 
表示 t 时 刻 第 i 个 平行 纤维 (Parallel] Fibers ,PF) 的 激活 状态 ,由 状态 编码 模块 的 输出 决 


me 


人 人， 
第 j 个 浦 肯 野 细胞 (Purkinje Cel1,PC) 的 状态 Si (t) 的 状态 值 由 式 (4.2) 确定 ,其 中 , 
为 浦 肯 野 细胞 (Purkinje Cell,PO) 的 阔 值 电位 ; 
0 P(t)> 
yy | (0 
lp0W<y 
0 (t) 二 [oi (t) ,oz ,...,01(t)… ,0 (bj 是 表示 基本 单元 激活 状态 的 状态 向 
量 ;L 是 本 模块 中 基本 单元 的 总 数 ,由 小 脑 模 型 的 动作 空间 决定 ,动作 空间 是 小 脑 模 型 
输出 基础 动作 的 组 合 ;ol (t) 是 第 1 个 基本 单元 的 状态 ,由 下 列 公 式 确定 : 


>s (0) 


0, (1)=4| 1- 0 (4.3) 


(4.2) 


其 中 ,4 是 修正 因子 ,M 为 基本 单元 中 浦 肯 时 细胞 (Purkinje Cell,PO) 的 个 数 ; 
平行 纤维 (Parallel Fibers ,PF) - 浦 肯 时 细胞 (Purkinje Cell,PO) 突 触 的 兴奋 性 对 浦 
肯 野 细胞 Purkinje Cell,PC) 膜 电位 值 的 影响 随时 间 变 化 , o ii tb) 在 每 一 t 时 刻 都 在 不 断 
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调整 , 随 着 兴奋 性 的 衰减 ,其 变化 趋势 ^A wii \b 为 : 

A (teRLISP: (IPE 过 测 

其 中 为 权 值 调整 系数 ; 

ee 

证 全 和 /二 A st) (4.5) 

ee ee 
于 行为 选择 概率 选择 并 执行 a (t) ,得 到 下 一 en 
RS ” , 趋 近 稳 定 状 
态 时 则 为 “0” 

小 脑 的 建 模 过 程 是 相关 突 触 的 塑造 过 程 , 攀 绿 纤维 (Clinbing Fibers,CP) 传递 信息 的 
ee ed a en ee 
此 过 程 中 得 到 改变 ;获得 一 次 学 习 经 验 后 ,下 橄榄 模块 利用 式 (4.6) 计算 TD 误差 5, ,并 基于 
式 (4.7) 和 式 (4.8) 修改 7 (a) ; 

6 ,=r tyYV(s (ttl))-V(s (t)) (4.6 


七 4 


ps (s(t) ,a(t)) =p, (s (t) ,a (t)) tb, (4.7) 


x, (a)= Pr{a(t)=a}= 


Ge 


LW 
> er(®) 
b=l 


Y 表示 对 未 来 奖励 的 衰减 值 ; 

其 中 ,p(s \b ,a ) 为 时 刻 t 状 态 s (了 时 选择 行为 a (t) 的 倾向 ,初始 时 各 行为 被 选择 的 
概率 相同 ,了 为 步 长 参数 ,Pr {a (t) 二 a} 是 t 时 刻 动作 a (t) 选择 a 的 概率 ,简写 为 Pt (a) ,n 表 示 
可 选 动 作 总 数 ; 

根据 6 ,得 到 攀缘 纤维 (Climbing Fibers,CF) 反馈 的 评价 性 信息 : 

ol (t) =8(6) — (49) 


(4.8) 


其 中 ， 

(x) ER (4.10) 
(XX) 一 
| 


基于 cj (t) ,调整 对 应 的 平行 纤维 (Parallel Fibers ,PFP) 权 值 : 

w(t) = (t) -oe c(t) * PF (t) (4.11) 

其 中 ,0 为 正 的 常数 ; 

所 述 的 运动 映射 模块 :将 小 脑 模 型 中 的 基本 单元 的 输出 映射 到 被 控 对 象 执行 相关 控制 
命令 ;在 小 脑 模型 中 引入 了 运动 映射 (APG) 方法 ,每 一 个 运动 映射 (APG) 可 以 生成 一 个 运动 
指令 ,与 基本 单元 输出 一 一 对 应 ;在 小 脑 模 型 动态 运行 过 程 中 ,每 一 t 时 刻 产 生 相 应 动作 的 
计算 方式 如 下 : 

A(t)=D* 0(t) (4.12) 

其 中 ,D 是 运动 指令 的 集合 向 量 ,也 被 称 为 命令 映射 向量 ,A (t) 是 t 时 刻 小 脑 模 型 最 终 的 
输出 指令 ; 

小 脑 模型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 基本 
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肉 系 统 ,把 关节 电机 的 正 向 和 逆向 旋转 视 作 骨骼 肌 的 收缩 与 舒张 ,小 脑 模型 输出 的 调整 量 


EE; 其 二 
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与 命令 映射 问 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 ,以 关节 作为 控制 对 象 ， 
每 每 一 个 输出 都 直接 作用 于 关节 ,以 电机 作为 执行 元 件 ,将 模型 视 作 人 体 中 的 关节 骨骼 - 肌 


视 作 神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 ; 


以 某 一 关节 作为 小 脑 模型 反馈 控 币 
万 =( de de 


其 中 ,di 是 


se0-| 


其 中 ,是 关节 
空 制 调 


大 小 ,t, 用 来 


周 整 量 


hp hp hp 
dd ) 


nn 天 


其 它 


| 的 对 象 时 ,其 


持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 
CH+EXxP O<t<t 
0 


命令 映射 向 量 为 : 


(4.14) 


I 基准 值 ,8 是 单位 增 量 , 通 


整 过 程 的 持续 时 间 。 


过 设置 p, 可 以 调节 输出 命令 de 的 幅 值 
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基于 仿生 强化 学 习 型 小 脑 模型 的 在 线 稳定 控制 仿 人 机 器 人 
技术 领域 


[0001] “本 发 明 属 于 仿 人 机 器 人 领域 ,涉及 一 种 基于 仿生 强化 学 习 型 小 脑 模型 的 在 线 稳定 
空 制 仿 人 机 器 人 。 


背景 技术 

[0002] ”人形 机 器 人 是 一 种 骨 在 以 模仿 人 类 外 观 和 行为 的 机 器 人 ,不 断 复制 人 类 综合 能 力 
的 特点 使 其 能 够 符 代 人 类 去 完成 重复 性 、 高 危 性 、 劳 动力 密集 型 的 工作 ,因而 具有 广阔 的 应 
用 前 景 。 人 形 机 器 人 是 一 类 典型 的 多 关节 非 线 性 欠 驱 动 系统 ,因此 其 步 态 控制 是 一 个 非常 
具有 挑战 性 的 问题 ,也 是 人 行 机 器 人 获得 广泛 应 用 的 关键 ,研究 者 们 提出 了 多 种 运动 步 态 
控制 方法 ,目前 最 普遍 的 是 将 运动 任务 分 解 为 不 同 的 子 模块 进行 规划 和 控制 形成 离线 步 态 
模式 ,如 零点 矩 (ZMP) 理论 、 倒 立 摆 模型 .遗传 算法 等 .这 些 传 统 的 离线 控制 和 规划 方法 主要 
针对 具体 的 运动 任务 进行 设计 ,如 平整 地 面 环境 下 稳定 行走 ,但 在 非 平稳 地 面条 件 下 , 人形 
机 器 人 的 步 态 规划 效果 仍 有 待 提高 ,因此 ,近年 来 离线 步 态 规划 结合 在 线 调 整 策 略 被 广泛 
应 用 。 然 而 ,目前 在 线 调 整 智能 控制 策略 仍然 主要 是 建立 在 精确 的 运动 控制 模型 的 基础 上 ， 
设计 的 控制 器 缺乏 通用 性 , 抗 干扰 能 力 弱 。 现 有 离线 步 态 规划 方法 ,并 未 将 路 面 环境 的 变化 
纳入 考量 ,只 能 够 机 械 地 跟 踩 预先 规划 好 的 运动 模式 ,所 以 难以 适用 于 平坦 路 面 之 外 的 其 
他 环境 。 而 现实 世界 中 环境 复杂 多 变 , 理 想 中 绝对 平整 的 路 面 环境 反而 不 多 见 。 要 使 仿 人 机 
器 人 能 够 取得 广泛 的 应 用 ,有 具备 在 复杂 环境 中 稳定 行走 的 能 力 尤 为 重要 。 智 能 控制 方法 源 
自 对 生物 智能 的 研究 ,步行 其 实质 是 人 体 在 推进 中 从 失去 平衡 到 恢复 平衡 的 向 前 移动 的 过 
程 ,而 步 态 反映 出 人 体 对 重心 控制 的 能 力 ,是 人 体 平 衡 系 统 的 重要 过 程 ,小 脑 作为 人 体 控制 
运动 和 平衡 的 重要 器 官 , 在 步 态 控制 中 起 着 至 关 重 要 的 作用 。 多 年 来 包括 生物 学 、 神 经 生理 
学 以 及 控制 工程 学 等 领域 的 学 者 们 模拟 小 脑 神经 系统 的 结构 或 功能 特征 ,建立 了 小 脑 关 联 
空 制 器 (Cefrebellar ModelArticulation Controller ,CMAO) 等 模型 ,应 用 于 人 形 机 器 人 控 
制 中 。 这 些小 脑 模型 通常 仅 以 控制 效果 为 目的 , 虽 借 鉴 了 小 脑 的 功能 模式 , 却 忽 略 了 小 脑 的 
结构 特性 。 


发 明 内 容 

[0003] ”为 了 解决 提高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平衡 能 力 的 问题 ,本 发 明 提 出 如 
下 技术 方案 :一 种 基于 仿生 强化 学 习 型 小 脑 模型 的 在 线 稳定 控制 仿 人 机 器 人 ,包括 对 仿 人 
机 器 人 进行 离线 步 态 规划 的 器 件 ,该 器 件 输出 使 仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 
具备 行走 能 力 ;响应 于 离线 步 态 的 小 脑 模型 控制 器 ,小 脑 模型 控制 器 包括 状态 编码 模块 小 
脑 模 型 .下 橄 槛 反馈 模块 ` 运 动 映 射 模块 ,状态 编码 模块 根据 仿 人 机 器 人 传感器 采集 到 的 状 
态 信息 调 整 PF 的 激活 状态 ,下 橄榄 反馈 模块 基于 环境 反馈 的 评价 信息 修改 行为 选择 概率 以 
及 小 脑 神 经 元 存储 权 值 ,运动 映射 模块 根据 功能 模块 输出 调节 机 器 人 动作 。 

[0004] ”有益 效果 :本 发 明 本 着 基于 小 脑 机 理 来 构建 仿 人 机 器 人 控制 方法 的 目的 ,深入 研 
完了 小 脑 的 解剖 与 生理 学 结构 ,并 且 引 入 强化 学 习 机 制 建立 了 基于 小 脑 的 仿生 控制 模型 ， 


CN 112060082 B 
以 此 来 提高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平衡 能 力 。 
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[0005] 


图 1 基于 AC 算法 的 步行 策略 框图 。 
图 2 机 器 人 关节 和 连 杆 示意 图 。 

图 3 简化 后 的 关节 连接 示意 图 。 

图 4 俯仰 轴 、 横 滚 轴 以 及 航向 轴 定 义 


图 5 仿 人 机 器 人 周期 步行 示意 图 (a) 
侧 视图 〈b) 正视 图 。 

图 6 完整 周期 内 关节 角度 与 时 间 关 系 
示意 图 (a) 左 腿 (b) 右 腿 。 

图 7BP 神经 网 络 结构 示意 图 。 

图 8 在 线 调整 时 腿 部 关节 的 调整 方向 
示意 图 (a) 向 前 调整 (b) 向 后 调整 。 

图 9 强化 学 习 在 线 稳定 控制 器 学 习 流 
程 示 意图 。 

图 10 小 脑 内 部 神经 元 连接 方式 示意 


图 11 小 脑 模 型 结构 框图 。 
图 12 小 脑 模型 输入 输出 结构 示意 


图 13CMAC 输入 输出 过 程 示 意图 。 

图 14CMAC 的 映射 规则 示意 图 。 

图 15 小 脑 功能 模块 结构 和 信息 传输 
路 径 示 意图 。 

图 16 基于 小 脑 模型 的 仿 人 机 器 人 步 
行 在 线 稳定 控制 示意 图 。 


具体 实施 方式 
本 实施 例 公 开 了 一 种 基于 Actor Critic 强 化 学 习 算法 的 仿 人 机 器 人 在 线 步 行 稳 
定 控制 方法 ,本 发 明基 于 离线 步 态 规划 结合 在 线 稳定 性 调整 的 步行 控制 策略 的 研究 思路 ， 


[0006] 


设计 步行 控制 策略 的 框架 结构 如 图 1 所 示 , 该 方 


次 样 条 提 


生成 的 关 
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图 17 小 脑 模型 在 线 稳定 控制 器 学 习 
流程 示意 图 。 
图 18 Webots 机 器 人 仿真 软件 主 界 


到 19 ROBOTIS-OP2 开发 接口 示意 
图 20 机 器 人 联合 仿真 系 


SS 
21 稳定 性 训练 平台 示意 
22 稳定 性 训练 平台 的 节点 树 示意 


统 示意 图 。 


| 
图 
匀 23 稳定 性 训练 平台 倾斜 角度 示意 


到 24Wings3D 三 维 建 模 软件 示意 图 。 
习 25 斜坡 环境 示意 图 。 

到 26 斜坡 环境 示意 图 。 

图 27 仿 人 机 器 人 行走 步 数 随 训练 回 
合 数 变化 图 。 

到 28 仿 人 机 器 人 斜坡 行走 过 程 中 的 
躯干 倾角 示意 图 。 

匀 29 路 面 坡度 增加 时 仿 人 机 器 人 的 
下 肢 关节 角度 曲线 示意 图 (a) 左 腿 (b) 
右 腿 


图 30 路 面 坡度 减少 时 仿 人 机 器 人 的 
下 肢 关节 角度 曲线 示意 图 (a) 左 腿 (b) 
右 腿 。 
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图 3 1 仿 人 机 器 人 斜坡 行走 过 程 示意 
图 〈a) 无 强化 学 习 稳定 控制 (b) 有 强 
化 学 习 稳 定 控制 。 

图 32 仿 人 机 器 人 行走 步 数 随 训练 回 
台数 变化 图 (连续 型 立即 回报 函数 ) 。 

图 33 正弦 和 输入 下 的 平台 输出 示意 


运动 时 仿 人 机 器 人 加 速度 
计 Y 立 轴 数 值 示 意图 。 

图 35 基于 小 脑 模型 的 仿 人 机 器 人 稳 
定性 训练 示意 图 (a) 训练 前 〈b) 训练 
后 。 

图 36 小 脑 模型 在 线 调 整 时 各 基本 单 
元 输出 曲线 图 (训练 后 )。 

图 37 小 脑 模型 各 基本 单元 的 CF 状 
态 随 训练 次 数 的 变化 图 。 

图 38 仿 人 机 器 人 和 斜坡 环境 行走 过 程 
示意 图 (a) 无 小 脑 模型 稳定 控制 (b) 
有 小 脑 模型 稳定 。 

图 39 仿 人 机 器 人 和 斜坡 环境 中 行走 的 
躯干 姿态 角 控 制 示意 图 。 

图 40 对 称 式 步行 阶段 划分 的 ZMP 
轨迹 〔 左 脚 支 撑 )。 


:主要 包括 两 个 步骤 :1. 基 于 ZNMP 理 论 和 三 
i 值 法 生成 离线 步 态 , 即 仿 人 机 器 人 的 离线 步 态 规划 ,使 仿 人 机 器 人 通过 跟踪 离线 
节 运动 轨迹 ,具备 了 基本 的 行走 能 力 .2. 基 于 AC 强 化 学 习 算法 设计 在 线 稳定 控制 


器 ,该 控制 器 在 机 器 人 行走 过 程 中 能 够 实时 采集 机 器 人 的 状态 信息 ,调整 机 器 人 的 步行 姿 
态 ,使 其 能 够 在 非 平整 路 面条 件 下 稳定 行走 ,下 述 对 该 两 个 步骤 进行 详细 说 明 : 

1. 仿 人 机 器 人 的 离线 步 态 规划 ,该 方法 包括 S1. 建 立 仿 人 机 器 人 的 运动 学 模型 、 
S2. 步 态 周期 划分 与 确定 ZMP 轨 迹 、S3. 躁 关节 与 髋 关节 轨迹 规划 、S4. 生 成 仿 人 机 器 人 离线 
步 态 。 本 实施 例 将 对 各 个 具体 步骤 作出 详细 说 明 。 
S1 .建立 仿 人 机 器 人 的 运动 学 模型 :本 发 明 使 用 ROBOTIS-0P2 仿 人 机 器 人 (以 下 简 
称 为 0P2) 作为 研究 平台 .为 了 生成 其 离线 步 态 规划 ,首先 需要 建立 以 OP2 的 身体 尺寸 及 关节 


[0007] 


[0008] 


布局 为 参照 的 运动 学 模型 。 建 立 OP2 的 运动 学 模型 使 用 DH 方 法 .0P2 的 关节 和 连 杆 布局 如 图 2 


所 示 (图 2 中 圆 点 表示 关节 ,直线 表示 


细 尺 寸 以 及 身体 各 部 位 质量 如 表 3.1 和 表 3.2 所 示 。 


[0009] 


表 3.1 机 器 人 的 连 杆 尺寸 


连 杆 ) .将 0P2 简 化 为 连 杆 -关节 的 串联 结构 ,各 连 杆 详 
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部 位 质量 (g) 


头 部 158.042 
颈 部 24.358 
肩 部 25.913 
躯干 975.6 
[oo10] 大 和 辟 168.377 
小 辟 69.289 
散 部 167.11 
大 腿 119.043 
小 腿 70.31 
脚 中 167.108 
脚掌 79.446 
[0011] ” 表 3.2 机 器 人 各 部 位 重量 
序号 部 位 长 度 (cm) 描述 
1 头 部 6.9 头 部 关节 和 颈 部 关节 之 间 
2 颈 部 5.05 颈 部 关节 到 左右 肩 关 节 连 线 的 垂直 距离 
3 肩 部 11.5 左右 肩 关 节 之 间距 离 
4 躯干 9.22 左右 肩 关 节 连 线 到 左右 通关 节 连 线 的 垂直 距离 
[0012] 5 小 辟 12.9 无 
6 大 辟 6 无 
| 通 部 7.4 左右 髋 关节 之 间距 离 
8 蔷 部 3 航向 轴 髋 关节 到 横 深 轴 髋 关节 之 间距 离 
9 大 腿 9.3 无 
10 小 腿 9.3 无 
11 脚 踩 3.35 中 关节 到 脚底 的 距离 


[0013] ”考虑 到 运动 学 模型 中 包含 的 连 杆 总 量 越 多 ,所 带 来 的 计算 量 也 越 大 ,因此 需 对 0P2 
机 器 人 的 连 杆 结构 做 了 一 定 的 简化 处 理 .0P2 机 器 人 具有 2 个 重要 的 结构 特点 : (1) 胸腔 内 集 
成 了 主要 的 大 重量 部 件 ,如 微型 计算 机 电池 等 。(2) 手臂 末端 无 执行 机 构 , 质量 较 轻 , 且 行 
走时 摆动 幅度 小 。 另 外 考虑 到 仿 人 机 器 人 的 行走 主要 依靠 腿 部 运动 ,所 以 在 建立 连 杆 模型 
时 ,可 以 忽略 掉 行 走 过 程 中 捍 辟 所 带 来 的 影响 ,将 其 上 身 视 为 一 个 整体 ,认为 其 重心 位 置 位 
于 髋 关节 正 上 方 ,简化 后 的 连 杆 模型 如 图 3 所 示 , 以 左 脚 脚掌 上 的 俯仰 轴 躁 关节 为 原点 建立 
世界 坐标 系 。 该 多 连 杆 模型 具有 12 个 自由 度 和 9 个 连 杆 ,图 3 中 的 L; 和 M; 分 别 表 示 各 连 杆 的 长 
度 和 质量 ,简化 模型 的 参数 在 表 3.3 中 列 出 ,其 中 ,简化 后 的 上 体 视 为 固定 在 髓 部 连 杆 L, 上 
的 刚体 ,其 连 杆 长 度 为 L,, 质 量 为 M,。 

[0014] ” 表 3.3 简 化 模型 参数 


连 杆 RN A Ds a A ZL; 天 
[0015] 长 度 (cm) 3.35 9.30 9.30 3.00 7.40 10.00 
质量 (g) 163.001 153.864 119.043 119.043 167.11 1421.58 


[0016] “为 了 方便 对 连 杆 模型 的 各 个 关节 进行 描述 和 区 分 ,将 各 关节 按 其 旋转 方向 分 为 人 
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仰 轴 关 节 、 横 深 轴 关节 以 及 航向 轴 关 节 , 三 个 轴 向 的 定义 如 图 4 所 示 。 昌 然 该 连 杆 模型 共 十 
二 个 自由 度 ,但 是 因为 只 考虑 机 器 人 的 前 向 行走 ,所 以 航向 轴 髋 关节 上 的 两 个 自由 度 在 步 
行 过 程 中 不 发 生 改 变 , 即 简化 后 的 机 器 人 连 杆 模型 实际 上 只 考虑 剩余 的 十 个 自由 度 。 将 这 
十 个 自由 度 上 的 关节 旋转 角 定 义 为 ~a ,它们 各 自 对 应 的 关节 如 表 3.4 所 示 。 


表 3.4 关节 旋转 角 与 各 关节 对 应 关系 Go 横 滚 轴 左 通关 节 

关节 旋转 角 关节 G6 横 滚 轴 右 通 关节 

俯仰 轴 左 躁 关 节 俯仰 轴 右 入 关节 

[DO] , 横 滚 轴 左 踩 关 节 俯仰 轴 右 膝 关节 
& 俯仰 轴 左 膝 关节 &% 横 滚 轴 右 踩 关节 

& 俯仰 轴 左 通关 节 Gin 俯仰 轴 右 躁 关 节 


[0018] ”S2. 步 态 周期 划分 与 ZMP 轨 迹 :本 发 明 采 用 对 称 式 的 划分 方式 。 该 方式 的 优点 在 于 
只 需 对 一 个 子 周 期 内 的 关节 轨迹 进行 规划 , 男 一 个 子 周期 的 关 市 轨迹 与 其 呈 左 右 脚 对 称 的 
关系 ,这 给 规划 仿 人 机 器 人 的 离线 步 态 带 来 了 方便 ,后 续 离 线 步 态 规划 内 容 均 以 左 肢 支撑 
子 周 期 为 例 进行 说 明 , 且 该 子 周 期 的 时 长 统一 规定 为 1 个 单位 时 间 。ZMP 的 位 置 是 仿 人 机 器 
人 运动 过 程 中 能 人 否 保持 稳定 性 的 关键 。 所 以 ,首先 规划 仿 人 机 器 人 步行 过 程 中 ZMP 点 的 移动 
轨迹 ,基于 图 40 所 示 的 ZMP 轨 迹 , 可 以 将 一 个 步行 子 周 期 中 的 ZMP 运 动 轨迹 用 如 下 公式 表示 : 


2gt 
A (?) BD er 


[0019] yy (1) = -3.7 0s1< (3.12) 
2.,, (1)=0 
X.,,({)=0 
s(2—1) 1 一 C l+o 
[0020] 了 (1) 二 三 "a < Gl 
Z(t)=0 
2t—o—l 
XxX Re 
(=s + 
2t:—o—1 
[0021] ye 一 于 < (3.14) 
Z(t)=0 


[0022] ”其 中 ,X(t) ,Y(t) ,2Z (tb) 分 别 为 ZMP 在 世界 坐标 系 中 的 坐标 ;s 是 X 方 向 上 足 底 
稳定 区 域 长 度 的 一 半 , 用 来 调节 步行 过 程 中 ZMP 的 可 移动 范围 ;o 表 示 一 个 步行 子 周 期 中 DSP 
占据 整体 时 长 的 比例 ;q 是 一 个 不 定 变 量 ,由 摆动 腿 的 跨 步 的 长 度 确 定 。 
[0023] ”SS3. 躁 关节 与 髋 关节 轨迹 规划 : 

[0024] (1) 躁 关节 轨迹 规划 :在 步行 子 周 期 的 单 脚 支 撑 阶 段 , 左 脚 与 地 面 接触 , 视 为 其 固 
定 于 地 面 。 该 阶段 中 右 脚 始终 悬空 , 右 脚 踩 关 节 的 运行 轨迹 十 分 重要 。 一 方面 ,因为 直接 与 
脚掌 相连 ,所 以 踩 关 节 的 运动 轨迹 直接 决定 了 脚掌 的 运动 轨迹 ,对 于 跨越 可 能 存在 的 障碍 
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物 起 决定 作用 。 男 一 方面 , 右 脚 脚 掌 离开 地 面 后 机 器 人 进入 单 足 支 撑 阶 段 ,这 个 过 程 要 尽量 
保持 平稳 和 顺畅 , 离 地 和 触 地 的 加 速度 和 速度 都 不 宜 过 大 。 此 外 , 躁 部 的 关节 有 两 个 自由 
度 , 但 两 个 自由 度 之 间 并 无 连 杆 结构 ,所 以 可 以 认为 两 个 自由 度 重 合 。 

[0025] ”基于 以 上 考虑 ,对 踩 关 节 设 置 约 束 条 件 如 下 : 


[0026] (3.15) 


[0027] (3.16) 


二 会 已 


[0028] ”其 中 ,L,, 表 示 右 脚 向 前 迈步 距离 ,H.,。 是 中 关节 能 到 达 最 高 高 度 ,T, 和 T, 用 来 调 
节 躁 关节 维持 最 高 高 度 的 持续 时 间 。 根 据 式 (3.15) 及 式 (3.16) 的 约束 条 件 ,可 以 推导 出 用 
三 次 插值 函数 表示 的 躁 关节 的 轨迹 : 


则 2 文生 二 = 全 时 二 本 攻 人 0 且 1) 
Z(t) _ Hf sgt ,0<t<7, 
Ls L 
[0030] 12(1)=H,,,T, <t<T, (3.18) 
3 2 
Z(t)=H,,—— s+ ,7T, <1<]1 
(1-7) (1-7) 
[0031] Y(t)=0,0<t<1 (3 19) 
[0032] 当 目 标 环境 是 非 平 坦 路 面 ,可 能 存在 障碍 物 时 ,可 以 根据 预期 的 障碍 物 高 度 对 
Li 和 Hs。 进 行 设 置 .本 发 明 中 暂时 不 考虑 地 面 存 在 障碍 物 的 情况 。 
[0033] (2) 髋 关节 轨迹 规划 : 接 下 来 对 介 关 节 的 轨迹 进行 规划 。 骨 关 节 有 三 个 自由 度 , 因 


为 只 考虑 仿 人 机 器 人 的 前 向 行走 ,所 以 不 使 用 航向 车 


通关 节 。 图 5 展示 了 一 个 子 周 期 内 机 器 


人 前 向 行走 时 的 正视 和 侧 视 ,一 个 子 周 期 中 , 横 深 负 


通关 节 在 侧 向 平面 内 的 运动 比较 单一 ， 


可 以 通过 直接 确定 几 个 关键 位 置 获得 其 运动 轨迹 。 
髋 关节 同时 做 


1 向 与 侧 向 运动 ,随后 的 单 足 文 撑 阶段 横 深 和 
脚底 板 后 侧 移动 到 前 侧 , 最 后 恢复 到 身体 正直 的 双 足 支撑 阶段 , 横 滚 玫 


首先 , 双 足 支撑 阶段 ZMP 点 向 左 脚 转移 ， 
通关 节 维 持 不 变 ,ZMP 点 从 左 脚 
髋 关节 复原 。 使 用 三 


次 样 条 插值 函数 对 其 运动 轨迹 进行 拟 合 , 即 可 得 到 横 滚 凶 
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1)=—-—, 0<t<t, 
os( ) pe 有 人 了 
[0034] 4Qs (1t)=d,, ty st<h, (3.20) 
Qs (1)=4d,+ a t, <1<1 


(tm {6 
[0035] ”其 中 ,t. 和 t, 表 示 双 足 支 撑 阶 段 和 单 足 支撑 阶段 的 两 个 时 间 分 隔 点 ,d.; 是 a; (t) 的 
最 大 旋转 角 。 
[0036] ”SS4. 生 成 仿 人 机 器 人 离线 步 态 
[0037] (1) 上肢 关 节 轨 迹 :在 建立 运动 学 模型 时 ,为 了 简化 机 器 人 连 杆 模型 以 及 后 续 计 算 
的 方便 ,机 器 人 的 上 身 被 视 为 恒定 的 刚体 。 可 以 采用 直接 规划 法 确定 机 器 人 上 半身 关节 在 
步行 过 程 中 的 运行 轨迹 ,这 些 关 节 包 括 : 颈 部 的 两 个 关节 左右 肩 部 共 四 个 关节 、 左 右 肘 部 
共 两 个 关节 。 将 颈 部 、 头 部 关节 设置 为 恒定 的 角度 0" ;左右 肩 部 的 两 个 横 滚 轴 关 节 分 别 设置 
为 15 和 -15 ” ;同样 的 , 肘 部 关节 也 分 别 设置 为 20" 和 -20”。 俯 仰 轴 肩 关节 的 轨迹 规划 比较 特 
殊 ,观察 人 类 的 行为 活动 可 以 发 现 ,无 论 是 行走 还 是 跑步 过 程 中 ,手臂 的 摆动 总 是 不 可 或 缺 
的 辅助 动作 。 所 以 推广 到 仿 人 机 器 人 的 步 态 规划 ,在 行走 过 程 中 前 后 交错 的 摆 辟 动作 有 助 
于 维持 机 器 人 行走 过 程 中 的 稳定 性 ,而 且 也 更 为 美观 .如 式 (3.21) 所 示 , 引 入 正弦 函数 来 描 
述 摆 臂 过 程 中 俯仰 轴 肩 关节 的 运行 轨迹 ,其 左 、 右 关节 旋转 角 随 时 间 变 化 的 关系 如 S ;| (t) 
和 S(t) 所 示 。 
[0038] I CE yp WE i) G321) 

Sw (1)=20sin (xt+x/2) 
[0039] 。 (2) 下 肢 关节 轨迹 规划 :对 于 下 肢 的 十 二 个 关节 ,因为 不 需要 考虑 转向 问题 ,所 以 
首先 将 航向 轴 的 两 个 髋 关节 角 设 为 恒定 的 0 .此 外 ,为 了 行走 过 程 中 机 器 人 姿态 的 自然 和 
稳定 ,对 剩余 的 十 个 关节 进一步 添加 约束 项 。 由 各 关节 角 的 运动 学 关系 ,机 器 人 下 肢 的 横 滚 
轴 关 节 和 俯仰 轴 关 节 分 别 有 如 下 关系 : 


Qt = -0 


Q +0Q;=0 
[0040] Ci 一 Qi 十 无 (3.22) 

Q; +Q, = Qs 一 邢 /2 
和 0 
L0041] ”在 确定 了 ZMP 轨 迹 规划 以 及 躁 、 髋 关节 轨迹 规划 之 后 ,要 进一步 获得 完整 步 态 规 
划 , 可 以 通过 各 个 关节 和 角 之 间 的 数学 关系 ,结合 额外 的 约束 条 件 如 利用 倒立 摆 模 型 获得 的 
质心 轨迹 等 ,获得 下 胶 各 个 关节 旋转 角度 的 变化 曲线 ,得 到 完整 的 机 器 人 行走 步 态 . 不 过 此 
类 方法 在 生成 关节 运行 轨迹 时 做 了 较 多 的 限定 ,所 以 生成 的 步 态 不 一 定 是 最 优 步 态 。 而 各 
类 优化 算法 如 遗传 算法 、 粒 子 群 算法 、 进 化 算法 以 及 蚁 群 算法 等 能 够 在 一 定 的 限制 条 件 下 
进行 寻 优 ,获得 最 优 的 步 态 规划 .连续 域 蚁 群 算法 来 源 于 经 典 蚁 群 算 法 ,是 一 种 可 以 在 连续 
空间 中 进行 寻 优 的 优化 算法 , 蚁 群 算法 的 灵感 源 于 对 自然 界 中 蚂蚁 疯 食 行为 的 观察 ,蚂蚁 
们 通过 在 经 过 的 路 径 中 散布 信息 素 , 来 帮助 整个 蚁 群 找 到 最 佳 的 食物 来 源 。 蚁 群 算法 依靠 


Ci +o 
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其 分 布 计算 、 启 发 式 搜 索 以 及 全 局 优化 等 特点 ,在 各 领域 取得 了 广泛 的 应 用 。 本 发 明 使 用 连 
续 域 蚁 群 算法 进行 下 股 关 节 轨 迹 的 优化 ,上 文中 对 ZMP 轨 迹 以 及 躁 、 髋 关节 的 预 规划 为 机 器 
人 的 离线 步 态 提供 了 参考 ,结合 式 (3.22) 中 对 各 关节 的 关节 旋转 角 之 间 关 系 的 限制 ,对 余 
下 的 下 股 关 节 轨 迹 a,,a,,a;,a6 使 用 三 次 样 条 法 进行 描述 ,以 较 高 的 ZMP 稳 定 裕 度 和 较 小 的 
躁 关节 轨迹 跟踪 误差 为 优化 目标 构建 目标 函数 : 

F00421 J] 二 J 2 

[0043] ”其 中 ,J, 是 行走 过 程 中 的 ZMP 轨 迹 误差 ,J 为 采样 时 刻 躁 关节 跟随 既定 轨迹 的 累加 
误差 ,机 ,限制 关节 旋转 角度 不 超出 电机 限制 ,设置 s 二 1.25,0 二 0.6,q 二 0.05,L.,, 二 5， 


H,,, 一 12,tf 一 0.3,t, 二 0.7,d,; 王 0.2, 使 用 蚁 群 算法 对 下 胶 关 节 的 轨迹 进行 优化 得 到 完整 
步 态 如 岁 6 所 示 。 观 察 图 6 中 关节 运动 曲线 可 以 看 到 ,生成 的 关 贡 旋转 轨迹 平滑 变化 , 且 无 阶 
跃 和 较 短 时 间 内 的 突变 ,这 能 保证 仿 人 机 器 人 行走 过 程 中 的 稳定 ,电机 跟踪 轨迹 运转 也 不 
会 出 现 困 难 。 

[0044] ”2. 基 于 强化 学 习 算 法 设计 在 线 步行 稳定 控制 器 : 

[0045] ”在 上 述 具 体 实施 例 方式 中 ,结合 ZMP 理 论 和 三 次 样 条 插值 法 生成 了 仿 人 机 器 人 0P2 
的 离线 步 态 ,所 生成 的 离线 步 态 通 过 控制 各 个 关节 能 机 跟踪 确定 的 轨迹 ,可 使 仿 人 机 器 人 
在 水 平 路 面 上 平稳 行走 .但 是 ,仅仅 是 水 平 路 面 的 稳定 行走 能 力 是 不 够 的 ,实际 应 用 中 ,机 
器 人 所 面 对 的 环境 要 更 为 复杂 。 要 使 仿 人 机 器 人 在 复杂 的 路 面 环境 中 保持 稳定 的 运动 状 
态 , 在 没有 人 类 干预 的 情况 下 ,只 能 依靠 机 器 人 自身 的 实时 调节 能 力 ,通过 自身 状态 信息 以 
及 环境 反馈 来 调整 机 器 人 执行 器 的 输出 ,以 应 对 环境 中 的 扰动 。 因 此 ,本 发 明 提出 了 一 种 基 
于 ActorCritic 算 法 的 在 线 稳定 性 控制 方法 ,该 方法 以 现实 世界 中 常见 的 斜坡 环境 为 目标 
环境 ,致力 于 解决 仿 人 机 器 人 在 坡度 连续 变化 的 斜坡 环境 中 难以 稳定 行走 的 问题 。 

[0046] ”为 了 能 够 便于 理解 ,对 本 步骤 中 使 用 的 基础 算法 进行 说 明 :基于 BP 神 经 网 络 的 AC 
算法 :AC 算 法 使 用 两 个 神经 网 络 结构 来 对 策略 和 值 函 数 进行 拟 合 ,这 使 其 可 以 直接 接收 连 
续 状 态 输入 。 在 未 曾 引入 神经 网 络 之 前 ,强化 学 习 算 法 通常 采用 离散 的 形式 将 动作 与 状态 
对 应 的 值 函 数 用 一 张 表格 存储 起 来 ,并 把 这 张 表格 作为 Agent 行 动 的 依据 ,但 是 ,当面 对 的 
状态 与 动作 数量 过 大 时 ,算法 的 收敛 会 变 得 十 分 困难 。 神 经 网 络 的 引入 ,在 一 定 程度 上 解决 
了 这 个 问题 ,借助 神经 网 络 可 以 接收 多 维 连续 输入 的 特点 ,强化 学 习 的 性 能 与 适用 范围 得 
到 了 进一步 的 提升 。 神 经 网 络 的 种 类 很 多 ,其 中 误差 反 向 传播 (pack propagation,BP) 神经 
网 络 因 性 能 成 熟 、 结 构 灵 活 以 及 非 线性 映射 能 力 强 等 特点 取得 了 广泛 的 应 用 。BP 神 经 网 络 
的 结构 如 图 7 所 示 。BP 神 经 网 络 分 别 有 输 入 层 、 隐 藏 层 以 及 输出 层 三 层 ,其 中 隐藏 层 的 层 数 
和 结构 没有 限制 ,可 以 灵活 安排 作为 一 种 前 馈 神 经 网 络 ,BP 神 经 网 络 学 习 过 程 是 根据 反馈 
调整 权 值 的 过 程 , 目 的 是 尽量 贴近 所 拟 合 的 输入 输出 关系 , 即 输出 值 与 期 望 值 之 间 的 误差 
尽量 小 。 

[0047] ”本 发 明 在 设计 强化 学 习 在 线 稳定 控制 器 时 ,Actor 网 络 和 Critic 网 络 都 采用 BP 神 
经 网 络 。t 时 刻 , 控 制 器 获得 包含 机 器 人 实时 信息 的 状态 s ,Actor 网 络 基于 s 输 出 动作 a, 机 器 
人 执行 动作 a 调 整 自 身 姿态 并 在 t+l 时 刻 到 达 状 态 s“ ,同时 获得 立即 回报 值 r。 此 时 ,对 于 
Critic 网 络 , 有 误差 5: 

[0048] 6=r+V(s’,0)-V(s,0) (3 24) 

[0049] ”其 中 ,0 表示 Critic 网 络 的 参数 ,基于 误差 6, 使 用 梯度 下 降 法 对 Critic 网 络 进 行 
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更 新 ,有 : 

[0050] 9 =0 +a’6VYV(s,0) (3.25) 

[0051] 其 中 ,a 为 Critic 网 络 的 更 新 步 长 ,更 新 方 同 为 使 损失 函数 最 小 的 方向 ,损失 函数 
L (9.) 用 均 方 误差 表示 : 


[0052] L(0.)=L5(r+rV(s',0.)-V(s,0.)) (3.26) 
n 


[0053] ”用 0 表示 Actor 网 络 参数 , 则 Actor 网 络 的 更 新 方式 为 : 

[0054] 9 =0 +a’d Vlnn(als,0,) (3.27) 

[0055] ”其 中 ,a 为 Actor 网 络 的 更 新 步 长 ,7 (a|s,9,) 表示 Actor 网 络 所 代表 的 策略 。 

[0056] ” 随 着 机 器 人 的 行走 ,其 所 处 的 环境 在 不 断 发 生 改 变 ,上 述 过 程 也 随 之 不 断 重复 。 可 
以 看 出 ,AC 算 法 的 学 习 过 程 遵循 强化 学 习 算法 的 一 般 过 程 ,每 一 次 执行 动作 后 ,Actor 和 
Critic 分 别 进行 一 次 更 新 。 而 学 习 结束 ,强化 学 习 获 得 最 佳 集 略 之 后 ,Actor 便 可 作为 控制 
器 的 主体 ,单独 执行 控制 任务 强化 学 习 关 键 要 素 的 设 定 :在 离线 步 态 规划 的 基础 上 ,设计 
了 基于 AC 算 法 的 在 线 稳 定 控制 器 .针对 坡度 连续 变化 的 斜坡 环境 ,控制 器 将 学 会 维持 仿 人 
机 器 人 稳定 行走 的 最 佳 行 动 策略 ,具体 来 说 , 仿 人 机 器 人 在 跟踪 离线 步 态 轨迹 行走 的 过 程 
中 ,通过 自身 搭载 的 传感器 感知 外 界 环 境 的 变化 ,并 且 以 传感器 信息 为 依据 对 步行 姿态 进 
行 调整 ,最终 学 会 应 对 斜坡 环境 的 行动 策略 ,实现 了 该 环境 下 的 稳定 行走 。 强 化 学 习 各 关键 
要 素 的 设 定 如 下 。 

[0057] (1) 状态 空间 :状态 s 是 强化 学 习 算 法 的 输入 信息 ,是 Agent 获 知 自 身 在 环境 中 所 处 
境况 的 唯一 途径 ,与 人 类 通过 眼 、 耳 \ 口 、 锚 以 及 上 肢体 等 来 感知 外 界 一 样 ,机 器 人 也 通过 自身 
搭载 的 各 类 传感器 来 探查 外 界 。 理 想 的 情况 是 传感器 足够 多 ,因为 这 意味 机 器 人 对 外 界 环 
境 以 及 自身 状况 了 解 才 足 够 全 面 ,但 是 过 高 维 数 的 状态 信息 会 导致 搜索 空间 急剧 增 大 而 造 
成 收敛 的 困难 。 因 为 机 器 人 结构 复杂 且 自 由 度 高 ,所 以 其 在 运动 过 程 中 具有 的 高 维 状 态 输 
入 和 高 维 动作 输出 的 特点 。 在 设计 应 用 于 机 器 人 的 强化 学 习 控制 算法 时 ,为 了 提高 训练 效 
率 ,第 党 对 可 用 的 状态 信息 进行 取舍 ,只 选取 那些 主要 的 信息 。 本 发 明 所 用 的 机 器 人 有 陀螺 
仪 和 加 速度 计 两 个 传感器 ,斜坡 路 面 行走 时 ,机 器 人 状态 变化 并 不 剧烈 ,陀螺 仪 传感器 对 其 
状态 描述 作用 不 大 。 所 以 通过 加 速度 计 采 集 其 状态 信息 作为 输入 ,强化 学 习 在 线 稳定 控制 
器 的 t 时 刻 输入 为 : 

POS Sse/ es nt) ns 

[0059] ”其 中 ,0 、(t) ,9 (t) ,9,6 s(t) 分 别 为 加 速 传感器 在 三 个 方向 上 采集 的 数值 信 
号 。f (t) 是 与 支撑 脚 有 关 的 变量 ,可 以 直接 从 离线 步 态 规 划 中 获取 ,1 为 左 脚 ,-1 为 右 脚 。 
[0060] (2) 动作 空间 : 仿 人 机 器 人 行走 过 程 中 遭遇 到 路 面 的 坡度 变化 时 ,整个 身体 的 角度 
也 随 之 倾斜 ,这 会 导致 其 质心 和 ZMP 偏 离 出 稳定 支撑 区 域 ,特别 是 在 单 足 文 撑 阶段 , 相 比 较 
于 双 脚 落地 时 ,该 阶段 的 支撑 区 域 收缩 到 了 单个 脚掌 之 内 ,稳定 范围 进一步 缩小 ,再 加 上 实 
际 行 走 过 程 中 各 个 舵 机 跟踪 关节 轨迹 曲线 的 误差 ,此 时 机 器 人 的 稳定 性 是 最 为 脆弱 的 ,为 
了 简化 运算 的 过 程 , 在 对 机 器 人 进行 步行 阶段 划分 时 ,将 一 个 完整 的 步行 周期 划分 为 了 两 
个 相互 对 称 的 子 周期 ,一 个 子 周 期 中 既 包含 有 单 足 支撑 阶段 ,也 包含 有 双 足 支撑 阶段 。 所 以 
采用 的 方式 是 将 一 个 子 周 期 视 为 一 个 整体 来 考虑 ,路 面 倾斜 导致 机 器 人 前 倾 或 后 仰 ,质心 
和 ZMP 向 身体 前 侧 或 后 侧 偏 移 , 要 将 其 调整 回 稳定 区 域 ,在 不 考虑 机 器 人 上 半身 关节 的 情况 


(t) ,0 (t)] (3.28) 
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下 ,采用 对 腿 部 俯仰 轴 关 节 做 整体 调整 的 方式 ,设计 了 动作 空间 ,如 图 7 所 示 , 以 左 腿 在 前 、 
右 腿 在 后 为 例 定性 的 展示 了 一 个 动作 中 各 关节 的 调整 过 程 ,图 8 的 (a) 展示 的 是 质心 和 ZMP 
前 向 调整 时 仿 人 机 器 人 腿 部 各 关节 的 旋转 方向 ,虚线 箭头 是 左 侧 俯仰 轴 通 关节 的 旋转 方 
向 。 同 理 , 图 8 的 (b) 展示 的 是 质心 和 ZMP 后 向 调整 时 的 关节 旋转 反 向 。 将 Actor 的 动作 输出 设 
计 为 这 六 个 关节 离线 角度 的 调整 量 , 在 时 刻 t, 强 化 学 习 根据 机 器 人 提供 的 状态 信息 得 到 对 
应 的 动作 : 

[0061] a(1)={AO”,AO”,AO”,AO”,AO”, AO”\ (3.29) 


[0062] ”其 中 ,Ab ，Ab， Ab ， Ab ， Ab ，A67 分别 为 左右 脚 的 俯仰 轴 躁 关节 、 俯 爷 
轴 膝 关节 以 及 俯仰 轴 髋 关节 的 关节 旋转 角度 在 离线 角度 基础 上 的 调整 量 , 同 时 ,为 了 避免 
调整 量 直 接 作用 于 各 个 关节 可 能 导致 的 瞬时 加 速度 过 大 ,也 为 了 使 仿 人 机 器 人 的 步行 过 程 
更 加 自然 ,基于 衰减 系数 6 ,使 用 三 次 样 条 法 对 动作 a (t) 进行 处 理 : 
[0063] Qo w(t) = 0 (t)+S Ce) 0<r<5 G330) 

[0064] ”其 中 ,a tine (tb 是 关节 实时 输出 角度 ,aurriine (t) 是 离线 轨迹 的 关节 角度 ,S (t) 
是 一 个 自然 边界 条 件 下 的 三 次 样 条 差 值 函数 ,由 以 下 约束 确定 : 


s(0)=A0, s(3)- 


[0065] (3.31) 


L0066] ”其 中 , A 9 是 对 应 关节 的 调整 量 。 
L0067] (3) 立即 回报 函数 :对 于 特定 的 任务 来 说 ,立即 回报 值 的 设 定 直接 决定 了 学 习 效 果 
的 好 坏 ,Agent 选 择 动作 的 倾向 ,一定 是 朝 着 回报 值 累 积 量 最 高 的 方向 。 所 以 立即 回报 值 函 
数 要 尽量 与 任务 目标 直接 相关 ,在 设计 立即 回报 值 函 数 时 ,考虑 到 机 器 人 和 斜坡 行走 时 保持 
稳定 性 这 一 需求 ,不 仅仅 要 求 机 器 人 能 在 坡 面 稳定 行走 ,同时 还 要 做 到 行走 过 程 中 前 后 倾 
和 斜 的 幅度 尽 可 能 小 ,所 以 将 机 器 人 服 干 倾角 的 阔 值 设 定 为 5 ,超过 该 阀 值 时 即 判 定 机 器 人 
处 于 不 稳定 状态 ,有 控 倒 的 风险 ,基于 上 述 要 求 ,本 发 明 设计 了 两 种 立即 回报 函数 ,分 别 如 
式 (3.32) 和 式 (3.33) 所 示 , 后 续 的 实验 中 将 对 两 种 立即 回报 函数 进行 比较 。 两 种 立即 回报 
函数 的 相同 点 是 进入 不 稳定 状态 都 会 给 予 -10 的 惩 神 值 ,不 同 之 处 是 当 保 持 在 稳定 范围 之 
内 时 ,获得 的 奖励 值 不 一 样 。 

一 10， i -S00 
"(0-| 二 


[0068] (3.32) 
10， 其 他 
0. Wins-S0r 0 
[0069] 7(1)= (3.33) 
-| goal, 其 他 


[0070] ”其 中 ,9itw 为 俯仰 轴 方 向 上 机 器 人 的 倾角 ,为 回报 值 放大 系数 。 
[0071] ”本 实施 例 的 强化 学 习 在 线 稳 定 控制 器 的 学 习 流 程 如 图 9 所 示 : (1) 初始 化 折扣 因 
子 、 学 习 因 子 等 超 参 数 , 并 对 Actor 和 Critic 两 个 神经 网 络 进行 初始 化 ,其 中 权 值 采用 随机 
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初始 化 , 偏 置 项 采用 和 常 值 初始 化 ; (2) 将 当前 时 刻 的 状态 s (t) 输入 Actor 网 络 和 Critic 网 络 ， 
Actor 网 络 提供 动作 输出 a (t) ; (3) 在 离线 步 态 的 基础 上 , 仿 人 机 器 人 基于 动作 a (t) 调整 下 
上 股 的 六 个 关节 ,到 达 新 的 状态 s (t+1) ,并 且 根 据 式 (3.32) 或 (3.33) 得 到 对 动作 a (t) 的 奖惩 r 
(t) 。 此 时 ,机 器 人 获得 此 次 行动 的 经 验 : {s(t) ,a (t) ,s (t+1) ,r (t)} ; (4 根据 新 的 经 验 数 
据 , 基 于 式 (3.24) 计算 TD 误差 ; (5) 分 别 对 Actor 网 络 和 Critic 网 络 的 参数 进行 更 新 ; (6) 判 
断 本 轮 学 习 过 程 是 否 完结 ,否则 跳 回 (2) 。 

[0072] ”本 发 明 以 齐 次 坐标 变换 和 DH 方法 为 基础 介绍 了 仿 人 机 器 人 的 简化 连 杆 模型 ,并 对 
仿 人 机 器 人 步 态 周期 的 划分 方式 进行 了 阐述 ,划分 周期 后 结合 ZMP 稳 定性 理论 确定 了 子 周 
期 内 ZMP 的 移动 轨迹 ,对 于 简化 后 的 上 半身 各 个 关节 的 运动 轨迹 采用 直接 规划 的 方法 ,下 半 
身 关节 的 轨迹 规划 , 则 是 在 连 杆 模型 以 及 ZMP 轨 迹 的 基础 上 进一步 确定 了 躁 关节 以 及 髋 关 
节 轨 迹 之 后 ,通过 连续 域 蚁 群 算法 获得 。 上 半身 和 下 半身 关节 轨迹 共同 构成 了 完整 的 离线 
步 态 规划 。 之 后 ,设计 以 强化 学 习 在 线 稳定 控制 器 为 核心 的 仿 人 机 器 人 步行 控制 策略 ,该 步 
行 控制 策略 采用 离线 步 态 规划 结合 在 线 姿态 调整 的 方式 ,针对 机 器 人 面 对 坡 度 连 续 变化 的 
路 面 环境 难以 保持 稳定 行走 的 问题 ,使 用 强化 学 习 AC 算 法 建立 了 在 线 稳 定 控制 器 ,该 控制 
器 的 控制 效果 将 在 后 续 实 验 说 明 中 进行 仿真 实验 验证 。 
[0073] ”在 一 种 实施 例 中 ,提出 一 种 基于 强化 学 习 小 脑 模型 的 的 仿 人 机 器 人 在 线 步行 稳定 
控制 方法 ,使 用 了 相同 的 离线 步 态 规 划 方法 ,与 上 述 实 施 例 的 区 别 在 于 ,在 设计 在 线 稳定 控 
制 器 时 ,上 述 实 施 例 是 基于 AC 强 化 学 习 算 法 设计 在 线 稳定 控制 器 ,本 实施 例 是 基于 强化 学 
习 小 脑 模 型 的 在 线 步行 稳定 控制 器 ,当然 ,基于 ActorCritic 算 法 实现 连续 状态 输入 下 的 在 
线 稳定 控制 ,之 后 ,利用 控制 学 方法 进一步 建立 基于 小 脑 机 理 和 强化 学 习 的 机 器 人 仿生 控 
制 模 型 ,两 种 控制 方法 的 结合 ,能 够 进一步 提高 稳定 性 和 环境 适应 能 力 。 

[0074] ”为 了 便于 理解 ,对 基础 算法 中 基于 强化 学 习 理 论 建 模 的 小 脑 模 型 进行 说 明 :小脑 
的 解剖 学 和 生理 学 概述 :人 脑 由 大 脑 、 小 脑 、 间 脑 和 脑 干 组 成 ,是 人 体 最 神秘 、 最 复杂 也 最 不 
可 或 缺 的 器 官 。 其 中 大 脑 占 据 脑 部 总 体积 的 五 分 之 四 以 上 ,但 就 神经 元 数量 而 言 , 大 脑 皮 层 
却 只 拥有 不 到 五 分 之 一 。 小 脑 虽然 体积 较 小 ,只 有 大 脑 八 分 之 一 左右 ,但 所 含 神经 元 数量 却 
是 大 脑 的 4 倍 。 随 着 对 小 脑 的 研究 越 来 越 深 入 ,人 们 发 现 小 脑 不 仅 掌 控 着 人 体 的 运动 和 协调 
空 制 能 力 ,在 情感 认 知 、 语 言 处 理 、 工 作 记 忆 等 方面 也 发 挥 着 重要 作用 .研究 小 脑 内 部 神经 
电信 号 传导 路 径 , 对 深入 理解 小 脑 运作 机 制 从 而 建立 小 脑 模型 有 重要 意义 .图 10 展 示 了 小 
脑 内 部 主要 神经 元 及 其 联结 方式 。 输 入 信息 进入 小 脑 的 途径 主要 有 两 种 ,分 别 是 两 种 轴 突 : 
攀缘 纤维 (C1imbing Fibers ,CF) 和 苦 伦 纤维 (Mossy Fibers,MF) .ME 将 本 体感 受信 息 通过 
末端 突 触 传递 到 颗粒 细胞 (GranuleC el1,60) 的 树 突 ,刺激 6C 激 发 小 脑 皮 层 内 部 的 其 他 细 
胞 .GC 把 编码 后 的 信息 经 由 平行 纤维 (Parallel Fibers,PF) 输出 到 小 脑 其 他 部 分 ,对 包括 
高 尔 基 细 胞 (Golgi Cell,GoC) ` 浦 表 野 细胞 (Purkinje Cell,PC) 、 篮 细胞 (Basket Cell， 
BC) 和 星 型 细胞 (Stellate Cel1,SC) 等 产生 激活 效果 。CF 可 以 与 多 个 PC 同时 连接 ,并 通过 两 
者 之 间 的 兴奋 性 突 触 传输 强烈 的 刺激 。 研 究 表明 ,发 展 成 熟 的 小 脑 中 ,每 个 PC 都 只 接受 单一 
CF 的 支配 ,同时 ,CF 活性 越 强 , 则 相应 的 浦 肯 野 细胞 也 就 越 具 活 力 。 值 得 注意 的 是 ,小 脑 的 兴 
奋 性 与 小 脑 的 学 习 能 力 有 关 。.PF 和 PC 之 间 形 成 的 突 触 具 有 长 时 抑制 (long tern 
potentiation,LTP) 的 可 塑性 ,一 般 认为 ,这 种 突 触 的 可 塑性 在 运动 能 力 的 习 得 中 具有 显著 
作用 。 最 新 研究 发 现 ,基于 奖惩 信号 和 期 望 信号 CF 在 小 脑 相 关 区 域 会 产生 作用 ,奖励 信号 存 
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在 时 会 刺激 一 部 分 区 域 并 抑制 其 他 区 域 ,而 奖励 信号 的 缺失 则 会 刺激 上 述 被 抑制 的 区 域 。 
在 小 脑 各 类 型 神经 元 中 ,PC 是 唯一 的 输出 神经 元 .PC 的 轴 突 会 离开 小 脑 皮 层 ,其 他 类 型 的 神 
经 元 只 在 小 脑 皮 层 内 相互 联结 .PC 综合 处 理 所 有 获得 的 信息 后 ,将 输出 信息 投射 至 深层 小 
脑 核 ,再 传递 到 大 脑 的 其 他 区 域 , 控 制 身 体 的 动作 。 

[0075] “小脑 模 型 结构 :本 发 明 所 使 用 的 小 脑 运动 控制 模型 着 眼 于 小 脑 在 运动 控制 方面 的 
能 力 ,一 方面 结合 相关 控制 理论 并 基于 模块 化 的 方式 实现 其 功能 , 另 一 方面 注重 对 小 脑 生 
理 与 解剖 结构 的 表达 。 图 11 是 该 小 脑 模型 的 整体 结构 图 。 在 仿 人 机 器 人 跟踪 离线 关节 轨迹 
行走 的 过 程 中 ,小 脑 模 型 根据 神经 元 存储 权 值 计算 小 脑 输 出 指令 ,结合 命令 映射 向 量 ,修改 
关节 运动 参数 ,驱动 机 器 人 调整 步行 姿态 以 维持 稳定 .同时 ,小 脑 模型 根据 获得 的 评价 性 反 
馈 进行 权 值 修改 ,寻找 最 优 的 运动 模式 ,因为 小 脑 的 细胞 结构 均匀 ,各 区 域 的 神经 元 细胞 种 
类 和 联结 方式 基本 相似 ,所 以 在 设计 时 小 脑 模 型 的 主体 采用 了 n 个 基本 单元 组 成 的 阵列 结 
构 , 其 输入 输出 结构 如 图 12 所 示 , 其 中 每 个 基本 单元 都 具有 相同 的 内 部 结构 与 信息 传输 方 
式 : 

[0076] “小 脑 模型 功能 :基本 单元 的 内 部 结构 主要 可 分 为 四 个 模块 。 其 中 ,状态 编码 器 模块 
解决 机 器 人 状态 信息 输入 到 相关 区 域 的 映射 问题 ;小 脑 功能 模块 的 设计 主要 参照 真实 小 脑 
的 神经 元 联结 方式 ,模拟 神经 电信 号 在 小 脑 中 的 传导 过 程 ,该 模块 中 的 突 触 记忆 信息 在 机 
器 人 行走 过 程 中 不 断 得 到 修正 ,从 而 更 好 的 实现 控制 功能 ;下 橄榄 模块 基于 对 小 脑 学 习 过 
程 中 采用 强化 学 习 机 制 的 猜想 ,将 TD 算法 引入 下 橄榄 反馈 过 程 ;运动 映射 模块 实现 了 基本 
单元 输出 到 动作 命令 的 映射 ,增强 小 脑 模型 对 不 同 受 控 对 象 以 及 不 同 任务 的 适应 性 .下 面 
对 各 模块 进行 简要 的 介绍 。 

[0077] (1) 状态 编码 模块 :状态 编码 模块 接收 仿 人 机 器 人 的 状态 信号 ,将 其 投射 为 小 脑 功 
能 模块 中 PF 状态 。 这 一 部 分 的 实现 借鉴 了 CMAC 小 脑 模型 .CMAC 算 法 的 提出 也 受到 小 脑 内 部 
结构 及 其 功能 的 启发 ,从 小 脑 理论 的 角度 来 说 ,MF 接 收 小 脑 外 部 输入 的 本 体感 受信 息 ,传递 
给 GC 进行 信息 的 编码 ,这 一 过 程 在 CMAC 中 体现 为 输入 向 量 到 相关 区 域 的 投射 . 泛 化 参数 C 的 
引入 ,很 好 的 体现 了 6GC 和 ME 的 联结 关系 , 即 一 条 ME 会 与 多 个 GC 形 成 突 触 联系 。CMAC 是 基于 权 
值 存储 的 神经 网 络 ,不 同 于 深度 学 习 中 由 带 权 神经 元 相互 之 间 通 过 复杂 连接 而 构成 的 网 络 
结构 ,CMAC 的 权 值 通过 “ 查 表 ”来 获得 .CMAC 的 输入 输出 过 程 如 图 13 所 示 , 图 13 中 ,AC 为 概念 
存储 器 ,AP 为 实际 存储 器 .过 程 分 为 两 个 阶段 :第 一 阶段 ,输入 信息 在 各 维度 上 都 能 找到 唯 
一 与 之 对 应 的 一 组 逻辑 分 区 ,每 个 逻辑 分 区 都 能 在 实际 存储 器 找到 这 些 分 区 对 应 的 权 值 ; 
第 二 阶段 ,通过 加 权 求 和 的 方式 累加 第 一 阶段 找到 的 权 值 , 即 得 到 CMAC 网 络 的 输出 。 举 个 具 
体 的 例子 来 进行 说 明 :如 图 14 所 示 ,将 输入 设 定 为 二 维 空间 , 横 轴 和 纵 轴 分 别 表 示 一 个 维 
度 ,x, 和 yj 表示 各 自 维度 的 输入 信号 ,每 一 维 的 输入 都 有 层 和 块 的 概念 ,根据 有 具体 的 输入 数 
值 可 以 在 一 层 找 到 对 应 的 块 , 即 逻 辑 分 区 。 比 如 ,每 一 层 都 有 x 与 相对 应 的 逻辑 分 块 , 每 个 
分 块 都 有 相应 的 离散 编码 与 之 对 应 , 即 b、e、g。 同 理 , 与 y /相对 应 的 则 为 B.D、G ,根据 同 层 对 
应 的 原则 ,此 时 对 应 的 权 值 区 域 索 引 为 Bb、De、Gg。 之 后 ,根据 逻辑 分 区 到 相关 区 域 的 映射 规 
则 ,可 以 找到 小 脑 功能 模块 中 对 应 的 相关 区 域 。 这 些 区 域 被 激活 设置 为 “1”, 其 余 区 域 相对 
应 设置 为 “0”。 

[0078] (2) 小 脑 功能 模块 :小 脑 功能 模块 遵循 小 脑 的 神经 联结 结构 与 电信 号 传导 过 程 ,如 
图 15 所 示 。PF 传 递 仿 人 机 器 人 连续 状态 信息 的 编码 信号 ,输入 信号 经 由 状态 编码 模块 被 投 
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射 到 相关 区 域 ,BC 和 SC 在 此 过 程 中 被 激发 处 于 兴奋 状态 ,表示 BC 和 SC 状态 信息 的 参数 s 和 bj 
设置 为 1”。 0 与 @Y. 表 示 BC、SC 与 PC 之 间 联 结 而 形成 的 突 触 ,由 于 BC 与 5C 对 PC 起 到 抑制 的 
作用 ,所 以 其 权 值 也 赋予 相应 的 负 值 。PC 的 膜 电位 值 Pi (t) 计算 如 下 : 


[o079] P(N)= YPr (0):@ (D+ os + ob, (4.1) 
j= 


[L0080] ”其 中 ,P(t) 表示 t 时 刻 PC 的 膜 电位 值 ,P(t) 上 共有 二 值 性 ,分 别 使 用 "0 和 “1" 表示 
抑制 "和 诉 活 两 种 状态 。o ;;(t) 是 PF-PC 可 塑性 突 触 中 存储 的 权 值 ,代表 了 突 触 状态 对 PC 
膜 电位 的 影响 ,其 中 ,i (i 二 1,2,... ,NN 表示 第 i 个 PF,j(j 二 1,2,... ,加 表示 第 j 个 PC。PF， 
(了 表示 t 时 刻 第 i 个 PF 的 激活 状态 ,由 状态 编码 模块 的 输出 决定 。 第 j 个 PC 的 状态 S(t) 的 状 
态 值 由 式 (4.2) 确定 ,其 中 ,4 为 PC 的 阐 值 电位 。 
0 P(t)>9 

让: 3 (4.2 
[oo081] SS;(1) | p (i) <4 4.2) 
[0082] 0(t) 三 [ol (t) ,0,(t) ,...,01(t) ...,01(t)] 是 表示 基本 单元 激活 状态 的 状态 向 
量 。L 是 本 模块 中 基本 单元 的 总 数 ,由 小 脑 模 型 的 动作 空间 决定 ,动作 空间 是 小 脑 模 型 输出 
基础 动作 的 组 合 .ol (t) 是 第 1 个 基本 单元 的 状态 ,由 下 列 公式 确定 : 


> si() 


[0083] 0,(7)=4|1 a (4.3) 


[0084] 其 中 ,4 是 修正 因子 ,PF-PC 突 触 的 兴奋 性 对 PC 膜 电位 值 的 影响 随时 间 变 化 , @ ii (t) 
在 每 一 t 时 刻 都 在 不 断 调整 , 随 着 兴奋 性 的 衰减 ,其 变化 趋势 ^ o ii (0D 为: 

[0085] A w(t) =KL1-P;(t) JPF; (t) (4.4) 

[0086] 其 中 ,kK 为 权 值 调 整 系数 。 在 t+t1 时 刻 权 值 变化 : 

[0087] wD A 

[0088] (3) 下 橄 槛 反馈 模块 :对 真实 小 脑 的 合理 解读 应 该 是 在 已 被 证 实 的 小 脑 回路 的 基 
础 上 ,恰当 地 解释 小 脑 各 个 结构 的 功能 和 信息 传递 过 程 ,在 动物 运动 过 程 中 ,PC 接受 MF 传 入 
有 关 运 动 的 上 下 文 信息 。 同 时 ,CF 同样 传递 运动 信息 流 , 因 为 小 脑 平行 纤维 PF 与 浦 肯 时 细胞 
PC 之 间 形 成 的 突 触 具有 可 塑性 ,CF 传递 的 信息 被 视 为 PF-PC 突 触 功能 改变 的 依据 ,CF 起 源 于 
下 橄榄 核 , 与 大 脑 皮 层 构 成 的 信息 通路 被 视 为 小 脑 的 反馈 回路 ,该 回路 被 认为 是 小 脑 学 习 
能 力 的 根源 .依据 对 小 脑 学 习 过 程 是 采用 强化 学 习 方 式 的 猜想 ,在 下 橄榄 反馈 模块 中 引入 
了 无 模型 强化 学 习 算法 一 一 TD 算法 .将 小 脑 模型 视 为 Agent ,状态 空间 由 PC 的 状态 构成 , 动 
作 空 间 由 基本 单元 的 输出 决定 将 小 脑 模型 PC 状态 -基本 单元 输出 映射 到 强化 学 习 状态 - 动 
作对 ,环境 模型 对 小 脑 模型 来 说 是 未 知 的 ,通过 试 错 来 学 习 是 其 取得 良好 表现 的 唯一 方 
式 。 学 习 过 程 中 ,强化 学 习 主导 动作 的 选择 ,根据 外 部 反馈 的 评价 信息 ,调整 动作 选择 概率 ， 
同时 各 基本 单元 中 的 权 值 也 得 到 相应 的 调整 ,在 时 刻 t, 通 过 传感器 获取 机 器 人 所 处 的 状态 
s., TD 算法 基于 行为 选择 概率 选择 并 执行 a ,得 到 下 一 状态 s,,, 和 立即 回报 值 r,,, ,利用 式 
(2.11) 更 新 状态 值 函数 ,其 中 r,, 是 机 器 人 此 时 与 上 一 时 刻 稳定 状态 的 比较 ,离开 稳定 状态 
时 则 为 “1 , 趋 近 稳定 状态 时 则 为 “0 ,小脑 的 建 模 过程 是 相关 突 触 的 塑造 过 程 ,CF 传递 信 
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息 的 过 程 采用 了 强化 学 习 的 机 制 , 试 错过 程 的 行为 选择 概率 r, (a) 在 不 断 调整 ,同时 相关 突 
触 在 此 过 程 中 得 到 改变 。 获 得 一 次 学 习 经 验 后 ,下 橄榄 模块 利用 式 (4.6) 计算 TD 误差 5, ,并 
基于 式 (4.7) 和 式 (4.8) 修改 7 (a) 。 
[0089] ”8,=r +YV(GS)-VGS) (4.6) 
[0090] pi, (swal) =pi (sa)tb5， (4.7) 

Pi(a) 


e 
Ax,(a)= Pr{a, = 中 = 一 id 


[0091] jy fp 
i 
b=l 


L0092] 其中,p, (s,,a) 为 时 刻 {t 状 态 s, 时 选择 行为 a, 的 倾向 ,初始 时 各 行为 被 选择 的 概率 
相同 ,了 为 步 长 参数 ,根据 5. ,得 到 CF 反馈 的 评价 性 信息 : 

[0093] c(t)=g(6) (4.9) 

[0094] ”其 中 ， 


0 x<0 
L0096] ”基于 cj (t) ,调整 对 应 的 PF 权 值 : 
[0097] Oi (t= oi (t) -0 c(t) » PF (t) (4.11) 
[0098] ”其 中 ,0 为 正 的 常数 。 
[L0099] (4) 运动 映射 APG) 模块 :该 模块 将 小 脑 功 能 模块 中 的 基本 单元 的 输出 映射 到 被 控 
对 象 执行 相关 控制 命令 ,Houk 的 研究 表明 ,记录 在 红 核 大 细胞 中 的 运动 信号 ,是 由 中 央 运 动 
模式 发 生 器 产生 的 ,而 不 是 周边 持续 的 反馈 引起 ,因而 认为 小 脑 是 一 个 可 调 模 式 发 生 器 .为 
此 ,在 小 脑 模 型 中 引入 了 APG 方 法 ,每 一 个 APG 可 以 生成 一 个 运动 指令 , 与 基本 单元 输出 一 一 
对 应 。 在 小 脑 模型 动态 运行 过 程 中 ,每 一 t 时 刻 产 生 相 应 动作 的 计算 方式 如 下 : 
[0100] A(t)=D°* 0(t) (4.12) 
[0101] ”其 中 ,D 是 运动 指令 的 集合 向 量 , 也 被 称 为 命令 映射 向量 ,A(tb) 是 t 时 刻 小 脑 模型 最 
终 的 输出 指令 。 
[0102] ”以 上 四 部 分 构成 了 完整 的 小 脑 模 型 ,其 具有 以 下 优点 : (1) 在 兼顾 控制 效果 的 同 
时 ,注重 了 对 小 脑 本 身 生理 特性 和 结构 特点 的 表达 。 建 立 基 于 小 脑 皮 层 特性 的 感觉 运动 控 
制 系统 ,对 机 器 人 学 以 及 控制 科学 的 发 展 有 一 定 的 研究 价值 与 意义 。(2) 利用 了 CMAC 的 优 
点 ,对 输入 信息 会 进行 一 定 的 局 部 泛 化 ,相近 的 输入 产生 相近 的 输出 ,同时 其 “表格 查询 ”的 
中 间 处 理 过 程 ,提高 了 小 脑 模型 响应 的 快速 性 。(3) APG 模 块 的 引入 ,采用 了 类 似 强化 学 习 中 
自由 设计 动作 空间 的 方式 ,使 得 该 小 脑 模型 能 应 用 于 不 同 的 受 控 主体 和 不 同 的 任务 ,具备 
了 良好 的 通用 性 。 
[0103] “本 发 明 的 基于 强化 学 习 小 脑 模型 的 在 线 步 行 稳定 控制 器 具体 设计 方法 如 下 :基于 
小 脑 模 型 的 仿 人 机 器 人 步行 控制 系统 如 图 16 所 示 。 离 线 步 态 规划 生成 机 器 人 的 基础 步 态 ， 
状态 编码 模块 根据 机 器 人 传感器 采集 到 的 状态 信息 调整 PE 的 激活 状态 ,下 橄榄 反馈 模块 基 
于 环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映射 模块 根据 小 
脑 模型 输出 调节 机 器 人 动作 。 真 实 小 脑 在 工作 的 时 候 ,接收 来 自 大 脑 和 兰 髓 的 外 界 信息 输 
入 ,并 根据 这 些 信息 实时 的 调控 人 体 的 运动 ,小 脑 的 运动 调节 能 力 是 在 人 体 与 环境 进行 交 
互 过 程 中 “后 天 ” 习 得 的 。 基 于 离线 步 态 规划 ,机 器 人 能 够 跟踪 预先 规划 的 关节 轨迹 在 平坦 
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路 面 上 行进 ,但 无 法 在 复杂 路 面 稳定 行走 ,倾斜 的 路 面 是 真实 环境 中 的 常见 场景 ,在 应 对 路 
面 坡度 的 变化 时 ,机 器 人 可 以 通过 对 腿 部 关节 进行 细微 的 调控 ,来 维持 自身 的 稳定 .0P2 机 
器 人 胸腔 内 的 副 控 电 路 上 集成 了 加 速度 计 和 陀螺 仪 ,采集 到 的 信号 可 以 提供 当前 机 器 人 姿 
态 稳定 性 的 信息 。 使 用 躯干 姿态 角 作 为 小 脑 模 型 输入 来 对 机 器 人 进行 稳定 控制 ,状态 编码 
器 基于 传感器 信息 确定 姿态 角 并 将 其 映射 为 对 应 的 PF 状态 ,机 器 人 根据 小 脑 模型 的 输出 调 
节 下 肢 关节 ,使 机 器 人 在 步行 时 始终 保持 平衡 与 稳定 。 
[0104] “小 脑 模型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 
基本 单元 状态 向 量 , 其 与 命令 映射 向 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 .以 通关 节 作为 控 和 于 
对 象 ,每 一 个 输出 都 直接 作用 于 髋 关节 ,虽然 以 电机 作为 执行 元 件 , 但 可 以 将 其 视 作 人 体 中 
的 关节 -骨骼 -肌肉 系统 ,把 关节 电机 的 正 向 和 逆向 旋转 理解 为 骨骼 肌 的 收缩 与 舒张 ,所 以 
小 脑 模型 输出 的 调整 量 类 似 于 神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 .。 以 人 般 关节 作为 小 脑 
模型 反馈 控制 的 对 象 时 ,其 命令 映射 向 量 为 : 

[0105] DD,, =(d®”,d,.…, d®”,.…, d®”,dY” ) (4.13) 


hp 一 


Ws 


[0106] ”其 中 ,4d” 是 持续 时 间 和 幅 值 可 调 的 髋 关节 调整 量 : 


出 和 六 A | 人 

[0108] ”其 中 ,5 是 通关 节 调 整 量 的 基准 值 ,5 是 单位 增 量 ,通过 设置 p; 可 以 调节 输出 命令 
d2 的 幅 值 大 小 .t. 用 来 控制 调整 过 程 的 持续 时 间 。 

[0109] ”小脑 模型 稳定 控制 器 的 学 习 过 程 的 流程 图 如 图 17 所 示 ,其 学 习 过 程 为 : (1) 初始 化 
oioxc，0ox 和 mo (a) ; (2) 状态 编码 模块 根据 机 器 人 传感器 信息 ,确定 小 脑 模型 状态 s,; (3) 
基于 当前 策略 ,选择 并 执行 行为 a ,获得 状态 s ， 和 立即 回报 值 r ，, 更 新 状态 值 函数 ; (0) 计 
算 上 一 步行 为 的 TD 误差 5, ,更 新 行为 选择 概率 r, (a) ,并 根据 CF 反馈 信息 修改 相关 神经 元 突 
触 权 值 ; (5) 判断 该 轮 学 习 是 否 结束 ,未 结束 则 回 到 步骤 (2) 继续 执行 学 习 过 程 ;否则 ,对 系 
统 进行 重 置 ,并 开始 下 一 轮 学 习 过 程 , 直 到 整个 学 习 过 程 结 束 。 

[0110] ”本 实施 方式 首先 简要 介绍 了 小 脑 的 在 人 体 运动 控制 中 的 作用 以 及 小 脑 的 结构 和 
功能 ,重点 曾 述 了 攀缘 纤维 、 苦 玖 纤维 ` 浦 肯 野 细胞 以 及 下 橄榄 核 的 机 制 与 功能 。 然 后 着 重 
介绍 了 强化 学 习 型 小 脑 模型 的 建 模 方 法 以 及 强化 学 习 机 制 在 该 小 脑 模型 中 的 应 用 。 最 后 将 
该 小 脑 模 型 应 用 于 仿 人 机 器 人 的 步行 稳定 控制 ,介绍 了 如 何 设计 基于 小 脑 模型 的 在 线 稳定 
控制 器 ,该 控制 器 以 仿 人 机 器 人 状态 信号 为 输入 ,通过 对 髋 关节 的 实时 调整 ,以 增强 仿 人 机 
器 人 行走 过 程 中 的 稳定 性 。 
[L0111] 对 于 上 述 实施 例 , 简 要 的 说 ,本 实施 例 提出 了 一 种 基于 仿生 强化 学 习 型 小 脑 模型 
的 在 线 稳定 控制 仿 人 机 器 人 ,包括 对 仿 人 机 器 人 进行 离线 步 态 规划 的 器 件 ,该 器 件 输出 使 
仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ; 响 应 于 离线 步 态 的 小 脑 模型 控制 
器 ,小 脑 模型 控制 器 包括 状态 编码 模块 .小脑 模 型 \ 下 橄 槛 反馈 模块 .运动 映射 模块 ,状态 编 
码 模块 根据 仿 人 机 器 人 传感器 采集 到 的 状态 信息 调整 PF 的 激活 状态 ,下 橄榄 反馈 模块 基于 
环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映射 模块 根据 功能 
模块 输出 调节 机 器 人 动作 。 


er 
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[0112] ”作为 优选 方案 ,对 仿 人 机 器 人 进行 离线 步 态 规划 使 用 上 述 实施 例 中 的 离线 步 态 规 
划 方法 。 
[0113] ”进一步 的 ,运动 映射 模块 基于 如 下 方式 实现 根据 小 脑 模型 输出 调节 机 器 人 动作 : 
小 脑 模型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 基本 单元 
状态 向 量 ,其 与 命令 映射 向 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 ,以 关节 作为 控制 对 象 ,每 一 
个 输出 都 直接 作用 于 关节 ,以 电机 作为 执行 元 件 ,将 模型 视 作 人 体 中 的 关节 -骨骼 -肌肉 系 
统 ,把 关节 电机 的 正 向 和 逆 回 旋转 视 作 骨骼 肌 的 收缩 与 舒张 ,小 脑 模型 输出 的 调整 量 视 作 
神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 。 

[0114] “进一步 的 ,获取 关节 调整 量 基 于 如 下 方式 实现 :以 某 一 关节 作为 小 脑 模型 反馈 控 
制 的 对 象 时 ,其 命令 映射 问 量 为 : 

[0115] “了 D，= (Ge 02 人 | (4.13) 


r 


[0116] ”其 中 ,n 为 基本 单元 个 数 , 4” 是 持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 


[0117] a” De i oe (4.14) 

[0118] ”其 中 ,5 是 关节 调整 量 的 基准 值 ,8 是 单位 增 量 ,p; 为 调整 量 的 幅 值 参数 ,可 以 调节 
输出 命令 d” 的 幅 值 大 小 ,t .表示 调 整 过 程 的 持续 时 间 。 
[0119] ”进一步 的 ,小 脑 模 型 学 习 方 法 包括 如 下 步骤 : (1) 初始 化 PF-PF 可 塑性 突 触 权 值 
wjij)SC、BC 与 PC 之 间 联 结 形成 的 突 触 的 权 值 ox ，w;z 和 行为 选择 概率 ro (a) ; (2) 状态 编码 模 
块根 据 机 器 人 传感器 信息 ,确定 小 脑 模型 状态 s,; (3) 基于 当前 策略 ,选择 并 执行 行为 a, 获 
得 状态 s, ;和 立即 回报 值 r,; ,更 新 状态 值 函数 ; (4) 计算 上 一 步行 为 的 TD 误差 5, ,更 新 行为 
选择 概率 (a) ,并 根据 CF 反馈 信息 修改 相关 突 触 突 触 权 值 ; (5) 判断 该 轮 学 习 是 否 结束 ,未 
结束 则 回 到 步 又 (2) 继续 执行 学 习 过 程 ;否则 ,对 系统 进行 重 置 ,并 开始 下 一 轮 学 习 过 程 , 直 
到 整个 学 习 过 程 结束 。 

[0120] ”进一步 的 ,所 述 的 状态 编码 模块 :接收 仿 人 机 器 人 的 状态 信号 ,将 其 投射 为 小 脑 模 
型 中 PF 状态 ,MF 接收 小 脑 外 部 输入 的 本 体感 受信 息 , 传 递 给 GC 进行 信息 的 编码 ,一 条 MF 会 与 
多 个 GC 形成 突 触 联系 ,CMAC 是 基于 权 值 存储 的 神经 网 络 ,CMAC 的 权 值 通过 “ 查 表 ” 来 获得 ， 
CMAC 的 输入 输出 过 程 分 为 两 个 阶段 :第 一 阶段 ,输入 信息 在 各 维度 上 都 能 找到 唯一 与 之 对 
应 的 一 组 逻辑 分 区 ,每 个 逻辑 分 区 都 能 在 实际 存储 器 找到 这 些 分 区 对 应 的 权 值 ;第 二 阶段 ， 
通过 加 权 求 和 的 方式 累加 第 一 阶段 找到 的 权 值 ,得 到 CMAC 网 络 的 输出 ; 

[0121] ”所 述 的 小 脑 功能 模块 小 脑 模型 :遵循 小 脑 的 神经 联结 结构 与 电信 号 传导 过 程 ,PF 
传递 仿 人 机 器 人 连续 状态 信息 的 编码 信号 ,输入 信号 经 由 状态 编码 模块 被 投 映 到 相关 区 
域 ,BC 和 SC 在 此 过 程 中 被 激发 处 于 兴奋 状态 ,并 将 表示 BC 和 SC 状态 信息 的 参数 s 和 bj 设置 为 
“1”, 0 与 4. 表 示 BC、SC 与 PC 之 间 联 结 形成 的 突 触 的 权 值 ,由 于 BC 与 SC 对 PC 起 到 抑制 的 作 
用 ,所 以 其 权 值 也 赋予 相应 的 负 值 ,PC 的 膜 电 位 值 Pi (t) 计算 如 下 : 


[02 P()= PE) (tost ob (aD 
j=l 


[0123] 其中,P;(t) 表示 t 时 刻 PC 的 膜 电 位 值 ,P;(t) 具有 二 值 性 ,分 别 使 用 "0 和 "1" 表示 
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“抑制 "和 “激活 ”两 种 状态 ; o ii (t) 是 PF-PC 可 塑性 突 触 中 存储 的 权 值 ,代表 了 突 触 状态 对 PC 
膜 电位 的 影响 ,其 中 ,i==1,2,...， N 表 示 第 i 个 PF, j= 二 1,2,...， M 表 示 第 j 个 PC;PF; (t) 表示 t 
时 刻 第 i 个 PE 的 激活 状态 ,由 状态 编码 模块 的 输出 决定 ; 
[0124] ”第 j 个 PC 的 状态 Sj(t) 的 状态 值 由 式 (4.2) 确定 ,其 中 ,为 PC 的 阔 值 电位 ; 
P (1)>¢ 

[0125] s00-| plyap (4.2) 

[0126] 0(t)=[o (t) ,0,(t) ,..., ol (t) ... ,01 (t) ] 是 表示 基本 单元 激活 状态 的 状态 向 
量 ; L 是 本 模块 中 基本 单元 的 总 数 ， 由 小 脑 模型 的 动作 空 x 间 决定 ,动作 空间 是 小 脑 模 型 输出 
基础 动作 的 组 合 ;oj (t) 是 第 1 个 基本 单元 的 状态 ,由 下 列 公式 确定 : 


> () 
[0127] 0,(?)=x|1-| 二 二 (4.3) 


[0128] ”其 中 ,是 修正 因子 ,为 基本 单元 中 PC 的 个 数 ， 

[0129] ”PF-PC 突 触 的 兴奋 性 对 PC 膜 电位 值 的 影响 随时 间 变化 , o i; (t) 在 每 一 t 时 刻 都 在 不 

断 调整 , 随 着 兴奋 性 的 衰减 ,其 变化 趋势 A (DD 为 : 

[0130] A ow; (t=K[1-P, (0D JPF;(t) (4. 

[0131] ”其 中 ,kK 为 权 值 调 整 系数 ; 

[0132] ”在 t+l 时 刻 权 值 变化 : 

[0133] oj (ttl) = 0 (+A 0, (t) (4.5) 

L0134] ”所 述 的 下 橄榄 反馈 模块 : 在 时 刻 t， 通过 传感器 获取 机 器 人 所 处 的 状态 s (t) ,TD 算 

法 基于 行为 选择 概率 选择 并 执行 a (t) ,得 到 下 一 状态 s (t) 和 立即 回报 值 r,, ,利用 式 (2.11) 

天 什 数 ， 其 中 r 是 机 器 人 此 时 与 上 一 时 刻 稳定 状态 的 比较 ,离开 稳定 状态 时 则 为 
”, 趋 近 稳 定 状态 时 则 为 “0”; 

i 小 脑 的 建 模 过 程 是 相关 突 触 的 塑造 过 程 ,CF 传递 信息 的 过 程 采 用 了 强化 学 习 的 机 

制 , 试 错过 程 的 行为 选择 概率 r, (a) 在 不 断 调整 ,同时 相关 突 触 在 此 过 程 中 得 到 改变 ;获得 

一 次 学 习 经 验 后 ,下 构 榄 模块 利用 式 (4.6) 计算 TD 误差 5,, 并 基于 式 (4.7) 和 式 (4.8) 修改 r， 

(a) ; 

[0136] 6,=r,,+YyV(s (tt1))-V(s(t)) (4.6) 


t+1 


[0137] ps (s(t) ,a(t)) =p, (s(t) ,a (t)) +b5, (4.7) 


[0138] An,(a)=Pr{a(t)=a}= LL 


yen (4.8) 


[0139] ”其 中 ,p, (s(t) ,a (t)) 为 时 刻 t 状 态 s (t) 时 选择 行为 a (t) 的 倾向 ,初始 时 各 行为 被 
选择 的 概率 相同 ,为 步 长 参数 ， 

[0140] ”Pr {a (tb) 二 a} 是 t 时 刻 动作 a (t) 选择 a 的 概率 ,简写 为 Pt (a) ,n 表 示 可 选 动作 总 数 ; 
[0141] ”根据 5 ,得 到 CF 反 馈 的 评价 性 信息 : 

[0142] c(t)=g(6) (4.9) 


Pi(a) 
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[0143] ”其 中 ， 


[0144] (x) LE 
(xX)= (4.10) 
2 0 x<0 


[0145] ”基于 cj (t) ,调整 对 应 的 PF 权 值 : 

[0146] oo (tO) =o (t) -or c(t) » PE,(t) (4.11) 

[0147] ”其 中 ,0 为 正 的 常数 ; 

[0148] ”所 述 的 运动 映射 模块 : eh ed nb 
控制 命令 ;在 小 脑 模型 中 引入 了 APG 方 法 ,每 一 个 APG 可 以 生成 一 个 运动 指令 ,与 基本 单元 输 
出 一 一 对 应 ;在 小 脑 模型 动态 运行 过 程 中 ,每 一 时 刻 产生 相应 动作 的 计算 方式 如 下 : 
[0149] A(t)=D°* 0(t) (4.12) 

[0150] ”其 中 ,D 是 运动 指令 的 集合 向 量 , 也 被 称 为 命令 映射 问 量 ,A(tb) 是 t 时 刻 小 脑 模型 最 
终 的 输出 指令 ; 

[0151] a er hd t 时 刻 各 基本 单元 的 激活 状态 构成 
基本 单元 状态 向 量 ,其 与 命令 映射 向 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 ee 
象 ,每 一 个 输 出 都 直接 作用 于 关节 ,以 电机 作为 执行 元 件 ,将 模型 视 作 人 体 中 的 关节 
a 
量 视 作 神 经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 ; 


[0152] ”以 某 一 关节 作为 小 脑 模 型 反馈 控制 的 对 象 时 ,其 命令 映射 问 量 为 : 
[0153] tt (4.13) 


[0154] ”其 中 ,qd” 是 持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 


[0155] ee a (4.14) 

[0156] ”其 中 ,o 是 关节 调整 量 的 基准 值 ,5 是 单位 增 量 ,通过 设置 pi 可 以 调节 输出 命令 di2 的 
幅 值 大 小 ,t. 用 来 控制 调整 过 程 的 持续 时 间 。 

[0157] ”实验 与 结果 分 析 

[0158] 1. 机 器 人 平台 与 仿真 实验 环境 

[0159] ”ROBOTIS-0P2 仿 人 机 器 人 :ROBOTIS-0P2 仿 人 机 器 人 是 韩国 ROBOTIS 公 司 开发 的 一 
款 小 型 机 器 人 平台 ,具有 20 个 自由 度 , 能 根据 开发 者 编写 的 程序 ,完成 足球 ,行走 ,图 像 识 
别 ,执行 动作 等 任务 。 该 仿 人 机 器 人 系统 主要 包括 主 控制 器 (Maincontroller) 和 副 控 制 器 
(Sub controller) 、 传 感 器 组 、20 个 舵 机 、 摄 像 头 以 及 供电 模块 等 .其 中 主 控制 器 是 一 台 微 
型 计算 机 ,硬件 构成 包含 Intel CPU、46G 内 存 .32GB 硬 盘 等 ,操作 系统 为 Linux 系 统 。 副 控制 器 
起 到 连通 主 控制 器 与 下 层 硬 件 设备 的 功能 , 主 控制 器 仅 与 副 控制 器 进行 通信 , 副 控制 器 根 
据 主 控制 器 的 指令 执行 下 层 硬 件 (能 机 、 加 速度 计 、 陀 螺 仪 .LED、 摄 像 头 MIC 等 ) 的 读 取 或 写 
入 操作 。 

[0160] ”机 器 人 仿真 软件 Webots: 本 发 明 考虑 到 控制 算法 需要 在 与 环境 的 交互 中 学 习 , 如 
果 使 用 真实 机 器 人 ,会 对 机 器 人 造成 损伤 ,Webots 仿 真 软件 是 一 款 功 能 强大 的 开源 机 器 人 
仿真 软件 ,研究 者 能 够 使 用 它 完成 机 器 人 设计 ,场景 搭建 以 及 机 器 人 控制 程序 的 开发 等 任 
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务 , 如 图 18 所 示 。 因 此 ,本 发 明 仿 人 机 器 人 的 训练 和 学 习 过 程 均 借助 Webots 软 件 的 仿真 环境 
进行 .Webots 提 供 了 丰富 的 编程 接口 和 节点 ,可 以 很 方便 地 根据 需求 搭建 所 需 的 机 器 人 和 
环境 ,常用 的 包括 各 种 执行 器 如 线性 马达 、 旋 转 马 达 , 各 种 传感器 如 加 速度 计 、GPS、 陀 螺 仪 
以 及 摄像 头等 。 上 述 这 些 节点 都 提供 了 统一 的 应 用 程序 接口 (Application Programming 
Interface,API) ,使 用 者 可 以 通过 程序 进行 控制 和 数据 的 读 写 .Webots 内 部 集成 了 开源 物 
理 引 擎 (0pen Dynamics Engine,0DE) ,可 以 在 虚拟 环境 中 对 指定 对 象 的 物理 特性 进行 仿 
真 ,模拟 重力 、 磁 撞 和 摩擦 等 现实 时 间 中 常见 的 物理 现象 。 

[0161] ”机 器 人 联合 仿真 系统 的 搭建 :本 发 明 所 使 用 的 ROBOTIS-0P2 仿 人 机 器 人 平台 提供 
了 一 整套 的 控制 框架 ,该 框架 基于 C++ 编 程 语言 编写 ,提供 了 从 底层 到 上 层 的 一 系列 编程 接 
口 ,如 图 19 所 示 。 使 用 这 一 套 接口 ,研究 人 员 可 以 根据 自身 的 需求 快捷 方便 地 进行 新 功能 也 
开发 。 为 了 不 进行 重复 的 工作 ,同时 也 为 了 后 续 程 序 在 Webots 和 真实 机 器 人 之 间 移 植 的 方 
便 , 仍 然 治 用 C++ 作为 控制 程序 开发 的 主要 编程 语言 ,实现 了 0P2 在 理想 水 平 路 面 上 的 离线 
行走 ,同时 ,通过 预 留 控制 接口 的 方式 ,为 后 续 在 线 稳定 控制 器 的 接 入 做 好 准备 。 除 了 C++ 语 
言 编 写 的 主体 部 分 之 外 ,完整 的 控制 程序 还 包括 在 线 稳定 控制 部 分 ,该 部 分 的 开发 需要 基 
于 Python 语言 以 及 MATLAB 语 言 , 这 两 种 语言 分 别提 供 了 强化 学 习 必 不 可 少 的 附加 包 以 及 强 
大 的 矩阵 运算 功能 。 此 外 ,Python 语 言 和 MATLAB 语 言 优秀 的 数据 处 理 和 绘图 能 力 可 以 对 仿 
真实 验 数据 做 后 续 处 理 以 及 可 视 化 操作 。 基 于 以 上 原因 ,搭建 了 跨 平台 、 跨 语言 的 联合 仿真 
系统 ,在 此 系统 上 研究 者 可 以 使 用 C++、Python、MATLAB 等 语言 进行 联合 编程 ,不 同 的 语言 之 
间 通 过 实时 通讯 、 传 输 数 据 以 及 相互 调用 ,共同 组 成 完整 的 机 器 人 控制 器 。 最 后 统一 生成 
“Controller” 可 执行 文件 ,导入 Webots 中 便 可 操控 机 器 人 的 行动 ,联合 仿真 系统 的 开发 有 
两 个 关键 点 ,一 是 不 同 编程 语言 之 间 高 效 的 数据 传输 和 实时 通讯 ,二 是 生成 的 完整 控制 器 
在 Webots 中 操控 仿真 机 器 人 ,各 功能 模块 运行 无 异常 。 以 Webots 为 核心 的 机 器 人 联合 仿真 
系统 整体 框架 如 图 20 所 示 。 仿 真 结果 处 理子 系统 存 取 训练 产生 的 控制 模型 以 及 对 仿真 实验 
中 产生 的 数据 进行 处 理 并 执行 可 视 化 等 操作 ;机 器 人 控制 子 系统 是 联合 仿真 系统 的 主体 部 
分 ,其 中 ,MATLAB 语 言 编写 的 小 脑 模型 在 线 控 制 模块 通过 MATLABEngine 与 基于 C++ 语言 的 离 
线 步行 模块 组 成 基于 小 脑 模型 的 “Controller” 控 制 器 , 同 理 ,Python 语 言 编写 的 强化 学 习 
在 线 控制 模块 通过 C++/Python 通 信和 模块 能 与 离线 步行 模块 共同 生成 基于 强化 学 习 的 
“Controller” 控 制 器 ;Webots 仿 真 软件 中 的 0P2 加 载 “Controller” 控 制 器 执行 相应 的 实验 
任务 。 

[0162] ”下 面 分 三 个 部 分 介绍 基于 联合 仿真 系统 的 机 器 人 控制 程序 的 开发 过 程 。 

[0163] (1) 机 器 人 控制 器 一 一 “Controller”:Webots 中 每 一 个 仿真 机 器 人 都 拥有 单独 的 
控制 器 ,被 称 为 “Controller”,“Controller” 是 原始 控制 程序 经 过 编译 后 生成 的 可 执行 文 
件 , 执 行 方式 为 导入 Webots 并 加 载 给 对 应 的 机 器 人 。Webots 仿 真 平台 提供 了 一 个 简单 的 文 
本 编辑 器 ,考虑 到 该 文本 编辑 器 书写 和 调试 的 不 方便 ,以 及 难以 应 对 后 序 复 杂 的 开发 需求 。 
使 用 VisualStudio 这 款 功 能 强大 的 集成 开发 环境 (integrated development 
environment ,IDE) 来 构建 “Controller ”机 器 人 控制 器 的 主体 部 分 ,主体 部 分 的 开发 主要 基 
于 Webots 的 原生 "WebotsC++APT 程序 接口 ,并 且 通 过 设计 通讯 与 数据 传输 接口 的 方式 将 
Python 语言 与 MATLAB 语 言 融 入 “Controller 。 

[0164] (2) 基于 C++ 和 Python 的 控制 器 开发 :由 于 "Controller 的 开发 会 涉及 到 三 种 语 
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言 ,所 以 三 种 语言 之 间 的 相互 调用 以 及 通讯 是 搭建 联合 仿真 系统 的 关键 .Python 编程 语言 
是 时 下 最 热门 的 编程 语言 之 一 , 随 着 人 工 智 能 的 发 展 ,Python 编 程 语 言 因为 其 良好 的 可 读 
性 以 及 相 较 于 其 他 编程 语言 更 方便 简约 的 语法 ,受到 开发 人 员 的 喜爱 。 随 着 第 三 方 开源 库 
的 快速 扩展 和 优化 ,以 及 TensorFlow、PyTorch、Numpy 等 开源 库 的 出 现 , 现 在 Python 以 成 为 
人 工 智 能 领域 开发 与 研究 最 重要 的 编程 语言 之 一 。 本 发 明 使 用 的 深度 强化 学 习 算法 ,需要 
借助 Python 中 的 第 三 方 库 来 实现 ,将 强化 学 习 应 用 到 仿 人 机 器 人 的 步 态 控制 ,Webots 中 机 
器 人 的 控制 器 需 由 C++ 和 Python 语言 共同 开发 ,各 自 开 发 相应 的 功能 模块 。 要 使 控制 器 能 在 
Webots 中 无 错误 执行 ,对 整个 开发 环境 的 兼容 性 要 求 很 高 ,经 过 调试 和 实验 后 ,最 终 确定 
Python 环境 的 细节 ,如 表 5.1 所 示 。 

[0165] “ 表 5.1 基 于 C++ 和 Python 的 联合 开发 环境 的 细节 


名 称 版 本 说 明 
python 3.7.4 Python 编程 语言 
matplotlib 3.1.2 绘图 工具 包 
[0166] numpy 1.16.6 和 矩阵 运算 库 
pandas 0.24.2 数据 分 析 工 具 包 
scipy 1.2.1 科学 计算 工具 包 
tensorflow 2.0.0 深度 学 习 框 架 


[0167] “基于 C++ 和 Python 的 控制 器 在 Webots 中 成 功 运行 对 兼容 性 要 求 较 高 ,所 以 在 机 器 
人 仿真 实验 之 前 , 先 对 两 模块 之 间 双 向 的 信息 传递 以 及 数据 处 理 与 可 视 化 等 功能 十 分 必 
要 ,测试 无 误 后 ,生成 “Controller” 可 执行 文件 并 在 Webots 中 进行 关联 和 调用 。 
[0168] (3) 基于 C++ 和 MATLAB 的 控制 器 开发 :MATLAB 是 MATrix LABoratory (矩阵 实验 室 ) 
的 缩写 ,是 一 款 由 美国 The MathWorks 公 司 出 品 的 商业 数学 软件 ,有 具备 交互 式 设计 的 图 形 用 
户 界 面 .MATLAB 的 基本 数据 元 素 无 需 特意 声明 其 维度 大 小 和 数据 类 型 ,能 帮助 开发 者 解决 
许多 复杂 的 计算 问题 ,尤其 是 矩阵 和 矢量 公式 的 运算 ,所 需 时 间 远 少 于 标量 非 交 互 式 语言 
(如 C 或 Fortran) 所 花费 的 时 间 。.MATLAB 同 时 也 是 一 种 用 于 工程 与 数学 计算 的 高 性 能 语言 ， 
它 集成 了 计算 .可视化 和 编程 功能 .MATLAB 的 功能 十 分 强大 , 涵盖 许多 方面 ,包括 数学 计算 
与 算法 开发 , 建 模 、 仿 真 与 原型 制作 ,科学 与 工程 图 形 , 应 用 程序 开发 (包括 图 形 用 户 界 面 的 
构建 ) 等 但 由 于 Matlab 开 发 平台 上 开发 的 程序 不 能 脱离 Matlab 运 行 环境 ,因而 在 处 理 一 些 
实际 应 用 问题 时 显得 灵活 性 不 足 , 而 C/C++ 语言 在 实际 的 工程 应 用 中 被 广泛 使 用 ,但 是 不 方 
便 进行 数据 可 视 化 处 理 , 难 以 测试 分 析 其 结果 ,此 外 也 不 具备 强大 的 矢量 和 矩阵 运算 能 力 。 
因此 ,将 二 者 结合 共用 ,各 献 其 长 ,可 以 为 科研 工作 和 工程 开发 提供 更 为 强大 的 技术 支持 。 

[0169] “C++ 与 MATLAB 联 合 开 发 的 方式 有 许多 ,主要 包括 以 下 三 种 :CDMATLAB Coder: 
MATLAB Coder 是 一 款 官方 提供 的 代码 生成 工具 ,可 以 使 用 MATLAB 代 码 生 成 C 和 C++ 代码 。 它 
支持 大 多 数 MATLAB 语 言 和 各 种 工具 箱 ,可 以 将 生成 的 代码 作为 源 代 码 ,静态 库 或 动态 库 集 
成 到 项 目 中 ,可 以 方便 的 移植 到 不 同 的 硬件 平台 .MATLAB Coder 的 缺点 是 只 能 添加 函数 ,对 
独立 的 文件 不 能 生成 .DMATLAB Compiler SDK:MATLAB Compiler SDK 支 持 将 MATLAB 程 序 
封装 打包 成 C/C++、.NET、Java 或 Python 的 类 库 , 从 而 实现 其 他 编程 语言 对 于 MATLAB 程 序 的 
调用 , 除 此 之 外 MATLAB Compiler 对 于 MATLAB 代 码 进行 了 封装 ,保护 了 代码 安全 。MATLAB 
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Compiler SDK 对 编程 语言 和 开发 平台 版 本 的 匹配 度 要 求 较 高 ,容易 出 现 编译 失败 或 调用 失 
败 的 情况 .OMATLAB Engine:MATLAB Engine API 是 一 套 供 C++ 程序 使 用 的 接口 ,基于 这 套 
接口 C++ 程序 可 以 同步 或 异步 的 同 MATLAB 进 行 交 互 。 支 持 的 操作 包括 :启动 MATLAB ;连接 到 
本 地 计算 机 上 的 MATLAB 共 享 会 话 ;: 直 接 执行 MATLAB 语 名 和 脚本 ;将 变量 从 C++ 传递 给 
MATLAB, 从 MATLAB 传 递 给 C++ 等 等 ,通过 C++/MATLAB 交 互 窗口 ,MATLAB Engine 能 够 实时 观察 
程序 运行 情况 ,调试 方便 ,使 用 者 可 以 在 程序 执行 过 程 中 随时 介入 ,基于 这 些 优点 ,选择 
MATLAB Engine 的 方式 来 实现 C++ 和 MATLAB 的 联合 开发 。 实 际 的 开发 过 程 中 ,C++、Python 和 
MATLAB 可 以 同时 用 于 Webots 机 器 人 控制 器 的 开发 ,方法 为 (2) 和 (3) 中 所 述 内 容 的 结合 ， 
此 不 再 袭 述 。 

[0170] ”2. 实 验 环境 

[0171] ”稳定 性 训练 平台 :为 了 对 小 脑 模型 进行 训练 ,在 Webots 仿 真 软件 中 搭建 了 一 个 稳 
定性 训练 平台 ,如 图 21 所 示 。 该 平台 最 上 方 的 台面 是 一 个 方形 平板 ,该 平板 的 形状 可 以 根据 
需要 调整 为 任意 矩形 ,平板 的 四 个 顶点 分 别 由 四 个 由 线性 电动 机 控制 的 可 伸缩 立柱 组 成 
(这 些 立柱 设置 为 不 可 见 ) ,为 了 保证 平面 可 以 在 需要 的 范围 内 平滑 地 变化 ,在 方形 平板 的 
四 角 分 别 设 置 了 一 个 无 阻尼 球状 关节 。 线 性 马达 可 以 分 别提 供 振 幅 和 频率 可 调 的 输出 用 于 
驱动 平台 ,以 产生 所 需 的 波动 来 模仿 环境 中 的 干扰 .与 一 般 环境 下 的 训练 相 比 ,平台 上 的 训 
练 丰富 了 对 机 器 人 的 干扰 ,可 以 作为 真实 环境 训练 前 的 预 训练 ,甚至 可 以 完全 的 代 蔡 实际 
环境 的 训练 .换言之 ,在 平台 上 进行 训练 ,可 以 更 有 效 且 全 面 地 探索 机 器 人 的 状态 空间 ,使 
机 器 人 的 平衡 控制 能 力 更 加 全 面 。 在 Webots 中 搭建 好 该 平台 之 后 ,将 其 设置 为 一 个 机 器 人 
节点 ,可 以 编写 "Controller” 程序 对 其 进行 控制 .将 四 个 立柱 视 为 机 器 人 关节 ,控制 关节 的 
运动 可 以 产生 模仿 环境 干扰 的 扰动 .图 22 为 稳定 性 训练 平台 的 节点 树 ,该 节点 由 五 个 子 节 
点 构成 ,分 别 代表 平台 台面 和 四 个 驱动 立柱 。 因 为 四 个 驱动 立柱 具有 相同 结构 ,所 以 图 22 中 
仅 对 右前 侧 立 柱 进行 展开 绘制 ,以 右前 侧 驱 动 立 柱 为 例 介绍 其 结构 ,该 立柱 所 包含 的 节点 
如 表 5.2 所 示 。 在 Wepots 中 搭建 机 械 结 构 ,与 现实 世界 大 致 相似 ,遵循 刚体 ( 连 杆 ) -关节 ( 效 
应 器 ) -刚体 ( 连 杆 ) 的 连接 方式 .“transform” 型 节点 可 视 为 固定 于 刚体 上 的 一 个 点 , “FR_ 
Transform 是 一 个 “transform 型 节点 ,指向 方形 平台 右前 侧 顶 点 ,此 处 固 接 一 个 球状 关节 
FR_BallJoint” ,球状 关节 的 末端 连接 滑 块 关节 FR_ SliderJoint 的 起 始 端 固 接 刚 体 "FR_ 
SliderJoint_Endpoint Solid” ,该 刚体 是 该 驱动 立柱 的 底座 ,其 质量 设置 为 极 大 ,可 认为 
其 固 接 于 地 面 。 滑 块 关节 中 安装 的 效应 器 为 线性 马达 "FTR_Linear Motor”, 提供 平台 运动 所 
需 的 驱动 力 。 

[0172] “ 表 5.2 驱 动 立柱 的 节点 构成 (右前 侧 ) 
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序号 节点 名 说 明 

1 FR_Transform 矩形 台面 
2 FR_BallJoint 球状 关节 ， 能 360" 运 动 
3 FR BallJoint EndPoint Solid 与 下 一 关节 相连 接 的 固 接 物 

[0173] 4 FR Ballloint EndPoint Shape 固 接 物 形状 限定 
5 FR SliderJoint 滑动 关节 , 只 能 单一 方向 运动 
6 FR Linear Motor 线性 马达 , 驱使 滑动 关节 伸缩 
7 FR SliderJoint Endpoint Solid 与 下 一 关节 相连 接 的 固 接 物 
8 FR SliderJoint Endpoint Shape 固 接 物 形状 限定 


[0174] ”平台 可 以 提供 模拟 外 界 扰动 的 输出 ,通过 控制 驱动 立柱 中 的 线性 马达 ,可 以 模拟 
路 面 倾斜 .不 平整 等 对 机 器 人 造成 的 影响 。 本 发 明 主 要 针对 仿 人 机 器 人 在 坡度 连续 变化 的 
路 面 环境 中 稳定 行走 的 问题 ,所 以 使 用 训练 平台 的 前 后 倾斜 来 模拟 路 面 的 起 伏 变 化 。 如 轿 
23 所 示 . 将 顺 时 针 方 向 定义 为 正方 向 ,台面 与 水 平面 之 间 的 夹 角 为 9. 倾斜 角度 0 (t) 随时 间 t 
作 周 期 性 的 改变 ,其 中 ,1 为 平台 宽度 ,1, (t) 和 1, (t) 为 台面 偏离 水 平面 的 高 度 。 使 用 该 平台 
模拟 斜坡 环境 时 ,将 两 个 正弦 信号 作为 输入 分 别 给 到 前 侧 的 两 个 线性 马达 和 后 侧 的 两 个 线 
性 马达 。 这 两 个 正弦 信号 相差 一 个 相位 ,使 平面 相对 于 水 平面 高 低 错开 ,保证 其 做 向 前 和 向 
后 倾斜 的 运动 。 式 (5.1) ~ (5.3) 展示 了 正弦 输入 下 随时 间 的 变化 ,和 为 常量 ,用 来 调整 平台 
倾斜 的 幅度 和 变化 的 快慢 ,此 时 ,位 于 其 上 的 机 器 人 也 会 随 之 前 倾 和 后 爷 , 身体 偏离 稳定 位 
置 , 且 由 于 并 不 固 接 于 台面 之 上 ,机 器 人 有 跌倒 的 危险 ,使 用 这 种 方式 模拟 坡度 变化 的 斜坡 
环境 ,训练 机 器 人 在 坡度 连续 变化 的 环境 中 维持 平衡 的 能 力 。 


[0175] AU) = Asin(E1 十 元) (5.1) 
,2 
[0176] 7,(1t)= 4sin( 了 站 (5.2) 
L9172]. 证 
[0178] ”斜坡 环境 :为 了 验证 机 器 人 在 斜坡 环境 中 稳定 行走 的 能 力 , 使 用 Wings3D 软 件 绘制 


实验 所 需 的 斜坡 环境 ,Wings3D 是 一 球 免 费 且 开源 的 三 维 模型 绘制 软件 ,如 图 24 所 示 , 它 能 
够 创建 精度 较 低 的 多 边 形 模型 以 及 进行 纹理 的 演 染 ,在 Wings 3D 中 主要 有 四 中 元 素 可 以 进 
行 选择 : 体 、 面 \ 边 和 顶点 ,可 以 通过 更 改 这 些 元 素来 对 模型 进行 修改 ,不 同 元 素 的 选择 和 参 
数 的 改变 会 有 不 同 的 效果 ,使 用 起 来 非常 灵活 。 同 时 ,Wings 3D 兼 容许 多 材质 以 及 纹理 ,并 
具有 二 维 图 像 到 三 维 模型 表面 的 UV 映射 能 力 。 和 斜坡 环境 在 Wings 3D 中 绘制 完成 之 后 ,导出 
成 VRML (Virtual Reality Modeling Language, 虚 拟 现 实 建 模 语言 ) 文件 ,再 将 其 导入 
Webots 仿 真 软件 中 。 如 图 25 所 示 , 所 设计 的 斜坡 环境 是 一 条 坡度 不 断 变化 的 带 状 路 面 ,其 最 
左 端的 倾斜 角度 为 0” ,路 面 往 右 延 伸 角 度 依 次 增 大 ,在 中 间 位 置 倾斜 角度 达到 最 大 值 , 之 后 


再 依次 减 小 到 0°。 用 这 一 条 道路 来 测试 路 面 倾斜 且 坡 度 不 断 变 化 时 机 器 人 的 稳定 行走 能 
为 5 

[0179] 3. 实验 与 结果 

[0180] .基于 强化 学 习 的 在 线 步 行 稳定 控制 实验 :在 本 发 明 中 ,将 离线 步 态 规划 以 及 基 
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于 强化 学 习 的 在 线 稳定 控制 器 编写 成 仿 人 机 器 人 控制 程序 来 测试 算法 的 有 效 性 ,控制 程序 
的 编写 以 及 所 有 的 实验 过 程 均 在 自主 搭建 的 联合 仿真 系统 中 完成 ,在 斜坡 环境 中 行走 时 ， 
随 着 坡度 的 变化 , 仿 人 机 器 人 会 渐渐 偏离 稳定 状态 ,直至 质心 和 ZMP 离 开 足 底 文 撑 区 域 ,机 
器 人 会 控 倒 从 而 无 法 继续 前 进 。 在 Webots 仿 真 环境 中 建立 了 坡度 连续 变化 的 斜坡 环境 ,该 
环境 的 示意 图 如 图 26 所 示 。 机 器 人 步行 起 始 位 置 是 斜坡 的 最 左边 ,此 处 的 坡度 为 0 ,之 后 随 
着 路 面 的 延伸 坡度 渐渐 增加 ,到 达 中 间 位 置 时 倾斜 角度 最 大 ,再 往 右 坡度 渐渐 减 小 恢复 到 
坡度 为 0 的 水 平 路 面 。 使 用 该 斜坡 环境 来 模仿 现实 世界 中 坡度 连续 变化 的 非 水 平 路 面 。 仿 
人 机 器 人 被 置 入 斜坡 环境 中 进行 了 学 习 训练 ,本 次 训练 中 ,强化 学 习 算法 的 参数 设置 如 表 
5.3 所 示 , 同 时 使 用 式 (3.32) 作为 立即 回报 函数 .图 27 直 观 的 展示 了 训练 的 效果 ,其 横 坐 标 
是 训练 的 回合 数 ,每 一 回合 训练 的 结束 条 件 只 有 仿 人 机 器 人 稳定 的 走 完 全 程 ,或 者 机 器 人 
摔 倒 , 纵 坐 标 为 一 回合 中 仿 人 机 器 人 行走 的 总 步 数 . 从 图 26 中 可 以 看 出 , 随 着 训练 回合 数 的 
增加 , 仿 人 机 器 人 稳定 行走 的 步 数 也 不 断 增加 。 观 察 学 习 过 程 中 每 回合 步 数 变化 情况 ,1- 
100 回 合 内 , 仿 人 机 器 人 的 行走 步 数 较 少 ,而 100 回 合 往 后 仿 人 机 器 人 越 来 越 多 地 能 走 完 全 
程 , 而 中 间 零 星 会 出 现 低 步 数 回合 ,是 因为 Actor 还 未 完全 收敛 到 最 优 策 略 ,所 以 仍 有 概率 
出 现 摔 倒 的 情况 ,直到 350 回 合 往 后 ,强化 学 习 算 法 完全 收敛 之 后 每 一 回合 中 仿 人 机 器 人 都 


能 顺利 的 走 完全 程 。 
[0181] ” 表 5.3 强 化 学 习 算 法 参数 设置 
参数 说 明 值 
0 Actor 学 习 因 子 0.001 

[0182] [2 Critic 学 习 因 子 0.01 

少 折扣 因子 0.9 

e 回合 数 400 
[0183] ”图 28 展 示 了 仿 人 机 器 人 在 斜坡 环境 中 行走 时 俯仰 轴 方 向 的 躯干 倾角 .为 了 更 好 地 


观察 躯干 借 角 的 变化 情况 ,采集 到 的 数据 经 过 无 权重 移动 平均 处 理 , 使 用 的 移动 窗口 大 小 
为 15. 图 28 中 的 下 方 曲 线 表示 的 是 无 强化 学 习 稳定 控制 器 在 线 调整 时 , 仿 人 机 器 人 躯干 倾 
角 的 变化 过 程 ,角度 为 0 表示 垂直 与 水 平 线 的 紧 直 状态 , 负 角 度 表 示 向 后 仰 倒 , 可 以 明显 的 
看 出 , 随 着 坡度 的 增 大 , 仅 跟 随 离 线 关 节 轨 迹 行走 的 仿 人 机 器 人 ,渐渐 偏离 稳定 状态 ,最 终 
在 第 3550 次 采样 点 附近 摔 倒 .上 方 曲线 表示 的 是 有 强化 学 习 稳 定 控制 器 在 线 调整 的 情况 ， 
仿 人 机 器 人 除了 跟踪 离线 预 规划 步 态 之 外 ,还 会 在 线 调整 下 上 股 俯 仰 轴 上 六 个 关节 的 旋转 角 
度 以 应 对 路 面 坡度 的 变化 ,可 以 看 出 仿 人 机 器 人 在 和 斜坡 环境 上 行走 的 过 程 中 ,俯仰 轴 方 向 
的 躯干 倾角 始终 在 0 轴 附 近 波 动 ,说 明 仿 人 机 器 人 行走 过 程 中 能 够 始终 维持 身体 姿态 的 稳 


定 ,保持 野 干 的 正直 ,证 明了 强化 学 习 方法 的 有 效 性 。 
[0184] ”图 29 和 图 30 分 别 展示 了 和 斜坡 行走 过 程 中 坡度 增加 以 及 坡度 减少 时 机 器 人 下 上肢 关 


节 角 度 的 实时 变化 过 程 .可 以 看 出 ,各 关节 运行 轨迹 随 坡度 变化 在 不 断 变 化 ,这 是 强化 学 习 


在 线 稳定 控 


较为 光滑 ,没有 突变 以 及 阶 路 现象, 说明 调 整 动作 之 间 的 过 渡 平 滑 ,这 也 更 进一步 的 保 记 


机 器 人 的 步行 稳定 。 这 些 仿真 结果 表明 ,以 仿 人 机 器 人 作为 Agent ,在 离线 步 态 规划 的 基础 
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上 ,结合 强化 学 习 在 线 稳定 控制 ,能 使 其 通过 自主 学 习 对 环境 具备 一 定 的 适应 能 
[0185] ”图 31 是 仿 人 机 器 人 斜坡 环境 行走 过 程 的 关键 帧 ,能 更 直观 地 看 到 有 无 强化 学 习 进 
行 在 线 稳定 性 控制 时 仿 人 机 器 人 和 斜坡 行走 的 表现 .图 31 的 (a) 中 仿 人 机 器 人 走 到 一 半 向 后 
摔 倒 ,而 在 图 31 的 (b) 中 仿 人 机 器 人 稳定 地 走 完全 程 。 可 以 看 出 ,无 论 地 面 倾斜 角度 如 何 变 
化 ,机 器 人 的 颈 干 始终 能 保持 正直 ,说 明 步 行 稳定 性 民 好 。 
[0186] ”本 发 明 在 上 述 强化 学 习 算 法 的 基础 上 ,重新 设计 了 连续 型 立即 回报 函数 如 式 
(3.33) ,改变 了 对 控制 算法 的 奖惩 方式 ,从 原来 只 要 躯干 倾角 保持 在 稳定 区 间 内 (前 后 倾斜 
小 于 5”) 就 能 获得 固定 奖励 ,转变 为 越 靠 近 理 想 稳定 位 置 (躯干 垂直 于 水 平面 ,倾角 为 0 ") 越 
能 获得 更 高 的 奖励 ,奖励 与 倾斜 角度 呈 儿 相关 ,直到 超过 稳定 阐 值 ( 正 负 5°) ,获得 数值 固定 
的 人 惩罚。 使 用 该 立即 回报 函数 的 学 习 过 程 如 图 32 所 示 , 与 图 27 进 行 比较 ,可 以 看 出 算法 的 收 
敛 速度 更 快 ,到 150 回 合 之 后 ,机 器 人 不 再 会 摔 倒 ,每 次 都 能 顺利 走 完全 程 ,除了 加 快 Agent 
的 训练 与 学 习 速 度 ,使 其 更 快 地 收敛 之 外 ,两 种 立即 回报 函数 最 终 训 练 出 来 的 控制 器 在 斜 
坡 环境 中 的 表现 没有 差别 。 
L0187] ”二 .强化 学 习 小 脑 模型 的 在 线 步 行 稳定 控制 实验 :本 发 明 已 经 对 引入 了 强化 学 习 
理论 的 小 脑 模型 以 及 基于 该 小 脑 模型 建立 的 机 器 人 步行 在 线 稳定 控制 器 做 了 详细 的 介绍 。 
本 发 明 将 对 该 算法 的 有 效 性 进行 仿真 验证 , 仿 人 机 器 人 的 重量 主要 集中 于 上 半身 , 主 副 控 
判 器 、 传 感 器 元 件 以 及 电池 等 都 放置 在 胸腔 内 ,这 就 使 得 仿 人 机 器 人 行走 过 程 中 的 躯干 位 
置 非常 重要 。 释 干 偏 移 过 大 会 导致 其 因为 质心 与 ZMP 点 离开 支撑 平面 而 控 倒 。 骸 关节 最 靠近 
仿 人 机 器 人 上 号 ,其 旋转 角度 的 变化 直接 影响 躯干 位 置 , 因 此 ,实验 中 选用 俯仰 轴 骨 关节 作 
为 小 脑 模型 的 调整 对 象 ,通过 在 行走 过 程 中 对 其 进行 实时 的 补偿 ,使 其 能 够 应 对 坡度 变化 
的 斜坡 环境 .为 了 对 小 脑 模型 进行 充分 训练 , 先 将 仿 人 机 器 人 置 于 稳定 性 训练 平台 上 ,并 使 
用 它 来 模拟 斜坡 环境 中 的 坡度 变化 ,然后 再 将 仿 人 机 器 人 放 到 斜坡 环境 中 进行 行走 验证 。 
[0188] ” (1) 平台 训练 :基于 上 述 对 稳定 性 训练 平台 的 描述 ,给 训练 平台 的 前 后 两 对 驱动 立 
柱 分 别 给 予 相差 一 个 相位 的 正弦 信号 输入 ,用 台面 的 前 后 倾斜 来 模拟 坡度 起 伏 变 化 的 斜坡 
环境 。 台 面 角度 9 随时 间 的 变化 图 如 图 33 所 示 , 当 平台 人 台面 前 后 倾斜 时 ,站立 在 台面 之 上 的 
机 器 人 的 状态 也 随 之 改变 .为 了 维持 稳定 性 ,小 脑 模 型 以 加 速度 计 与 陀螺 仪 传感器 的 数据 
解 算 出 的 机 器 人 的 躯干 姿态 角 作 为 状态 输入 s， 实 时 地 调整 机 器 人 的 通关 节 ,使 仿 人 机 器 
人 的 状态 始终 维持 在 稳定 的 区 间 之 内 。 初 始 化 小 脑 模 型 时 ,为 了 保证 训练 过 程 中 对 所 有 行 
为 进行 充分 的 尝试 ,采用 乐观 初始 值 法 将 状态 值 都 设 为 "1 ,此 时 ,所 有 行为 的 选择 概率 相 
同 . 训 练 过 程 中 ,小脑 模 型 基于 状态 输入 对 各 基本 单元 进行 尝试 性 的 激活 ,之 后 根据 CF 反 馈 
的 评价 性 信息 调整 相关 区 域 的 权 值 , 以 及 对 应 的 行为 选择 概率 ,以 此 找寻 最 优 策略 实际 上 
训练 过 程 认为 这 是 小 脑 模型 建 模 的 最 后 一 步 , 直 到 小 脑 模型 取得 维持 机 器 人 稳定 性 的 能 
力 , 建 模 完 成 。 此 外 ,训练 过 程 并 未 设置 结束 的 条 件 , 只 有 在 机 器 人 摔 倒 时 会 重 置 整个 训练 
环境 , 重 置 之 前 的 训练 成 果 会 保留 下 来 ,新 的 训练 在 这 基础 上 进行 ,训练 结束 的 方式 是 通过 
外 部 人 为 中 断 ,之 后 再 执行 对 模型 后 续 的 处 理 . 图 35 展 示 的 是 一 次 训练 的 结果 ,经 过 训练 时 
间 后 的 小 脑 模 型 能 够 始终 将 机 器 人 饮 干 姿态 角 维 持 在 稳定 范围 之 内 。 图 35 的 (a) 和 图 35 的 
(b) 分 别 展 示 了 训练 前 和 训练 后 机 器 人 随 平台 运动 的 变化 情况 ,可 以 看 出 ,训练 前 仿 人 机 器 
人 随 着 平台 的 运动 而 前 后 摆动 ,而 训练 后 仿 人 机 器 人 能 通过 调整 通关 节 维 持 吴 体 的 正直 。 
仿 人 机 器 人 受 平 台 运 动 影响 前 后 倾斜 时 ,加 速度 计 的 数值 也 随 之 改变 ,其 中 加 速度 计 Y 


一 由 


28 


CN 112060082 B 说 明 书 24/30 页 


(前 后 方向 ) 的 数值 变化 幅度 最 大 ,图 34 展 示 了 训练 前 和 训练 后 平台 运动 时 仿 人 机 器 人 前 后 
方向 加 速度 的 变化 过 程 ,训练 前 仿 人 机 器 人 随 平 台 的 运动 而 前 后 摇摆 ,如 实 线 所 示 , 前 后 方 
向 加 速度 数据 呈现 出 周期 性 波动 变化 ,此 时 仿 人 机 器 人 完全 受到 平台 运动 的 影响 ,而 训练 
后 的 情况 如 图 34 中 虚线 所 示 , 加 速度 数据 的 变化 幅度 减 小 ,图 36 展 示 了 训练 后 小 脑 模 型 执 
行 时 一 段 时 间 之 内 各 基本 单元 的 输出 。 从 图 36 中 可 以 看 出 各 基本 单元 的 激活 频率 有 向 第 5、 
第 6 基本 单元 集中 的 趋向 ,而 初始 状态 的 小 脑 模型 输出 是 随机 的 ,这 表明 训练 后 ,小 脑 模型 
习 得 了 某 种 行为 模式 使 机 器 人 更 能 维持 在 竖 直 稳定 状态 。 训 练 过 程 中 小 脑 模 型 各 基本 单元 
对 应 CF 的 状态 随 学 习 次 数 的 变化 如 图 37 所 示 。 可 以 看 到 第 5、 第 6 基本 单元 的 CF 在 一 定 次 数 
的 学 习 之 后 才 开 始 被 激活 ,而 其 余 基本 单元 大 都 状态 变化 频繁 ,这 与 图 36 较 为 吻合 ,说 明 小 
脑 模型 在 经 过 了 一 定 次 数 的 学 习 后 才 开始 获得 某 种 行为 模式 。 

[0189] ” (2) 斜坡 行走 :将 训练 后 的 小 脑 模型 用 于 执行 仿 人 机 器 人 在 斜坡 环境 中 行走 的 任 
务 ,斜坡 环境 如 图 37 所 示 ,前 低 后 高 ,倾斜 角度 范围 为 0" 一 7” ,中 间 位 置 角度 最 大 为 7° ,图 38 
展示 了 仿 人 机 器 人 和 斜坡 环境 行走 时 的 关键 帧 ,图 38 的 (a) 展示 了 无 小 脑 模型 进行 在 线 稳定 
性 控制 时 仿 人 机 器 人 会 在 中 途 因 向 后 倾斜 失去 稳定 性 而 摔 倒 ,斜坡 行走 失败 。 有 小 脑 模型 
在 线 调整 的 仿 人 机 器 人 和 斜坡 行走 实验 过 程 如 图 38 的 (pb) 所 示 ,路 面 倾斜 时 小 脑 模型 对 仿 人 
机 器 人 进行 在 线 稳 定 控制 ,结合 离线 预 规划 步 态 实现 了 在 坡度 变化 的 斜坡 环境 上 的 连续 行 
走 。 图 39 是 斜坡 行走 过 程 中 仿 人 机 器 人 俯仰 轴 躯 干 倾 角 随 时 间 变 化 的 曲线 ,角度 为 正 时 前 
倾 ,角度 为 负 时 后 仰 。 上 方 曲线 使 用 了 小 脑 模型 , 仿 人 机 器 人 躯干 倾角 始终 维持 在 一 定 范围 
内 ,没有 随 坡度 的 倾斜 而 剧烈 变化 ,下 方 曲 线 展 示 了 仿 人 机 器 人 渐渐 倾斜 直至 摔 倒 的 过 程 。 
[0190] ”在 本 发 明 中 ,首先 简要 的 介绍 了 ROBOTIS-0P2 仿 人 机 器 人 平台 的 硬件 配置 .软件 控 
制 系统 以 及 所 具备 的 能 力 。 然 后 实现 了 联合 仿真 系统 的 设计 与 搭建 ,包括 总 体系 统 的 框架 ， 
以 及 各 子 模块 的 说 明和 搭建 方法 ,该 系统 具有 跨 平台 、 跨 语言 两 大 特性 ,能 够 同时 使 用 
Python、C++、MATLAB 进 行 机 器 人 控制 器 开发 ,三 种 语言 取长补短 ,分 别 借助 各 自 的 IDE 实 现 
开发 过 程 ,最 终 合并 生成 完整 的 机 器 人 控制 器 ,为 程序 的 编辑 、 调 试 以 及 数据 的 采集 提供 了 
便利 。 最 后 ,针对 机 器 人 面 对 坡 度 连续 变化 的 路 面 环境 时 ,难以 保持 稳定 行走 的 问题 ,分 别 
使 用 强化 学 习 稳定 控制 器 和 小 脑 模型 稳定 控制 器 进行 了 仿真 实验 ,实验 结果 证 明了 这 两 种 
方法 的 有 效 性 ,实现 了 机 器 人 在 斜坡 环境 中 的 稳定 行走 。 

[0191] 本 发 明 以 仿 人 机 器 人 为 研究 对 象 , 针 对 仿 人 机 器 人 在 非 平整 路 面 环 境 中 难以 稳定 
行走 的 问题 ,将 离线 预 规划 步 态 与 在 线 稳定 性 调整 相 结合 ,分别 设计 了 两 种 在 线 稳定 控制 
器 , 即 AC 强 化 学 习 稳 定 控制 器 和 TD 强化 学 习 小 脑 模型 稳定 控制 器 。 两 种 方法 都 能 通过 学 习 
获得 维持 机 器 人 平衡 的 能 力 , 并 且 能 进一步 应 用 于 斜坡 环境 中 。 本 发 明 的 主要 研究 成 果 有 
以 下 几 个 方面 : 
[0192] (1) 搭建 了 基于 Webots 仿 真 软件 的 联合 仿真 系统 ,该 系统 具有 跨 平 台 跨 语言 的 特 
性 ,实现 了 Python、C++、MATLAB 三 种 语言 的 联合 开发 ,共同 生成 机 器 人 的 控制 程序 ,有 助 于 
解决 控制 算法 发 展 趋向 复杂 化 、 多 样 化 所 导致 的 单一 语言 开发 不 便 的 问题 。 

[0193] ”(2) 在 离线 步 态 规划 的 基础 上 ,根据 仿 人 机 器 人 的 步行 特性 ,构建 了 基于 AC 强 化 学 
习 算 法 的 步行 稳定 性 控制 方法 。 该 方法 以 坡度 连续 变化 的 斜坡 环境 作为 目标 环境 ,有 针对 
性 地 设计 了 强化 学 习 的 各 个 要 素 。 在 步行 过 程 中 ,基于 传感器 信息 对 下 肢 关节 进行 补偿 控 
制 ,实现 了 仿 人 机 器 人 对 自身 姿态 的 实时 调整 。 另 外 ,探讨 了 连续 型 与 离散 型 立即 回报 函数 


29 


CN 112060082 B 说 明 书 25/30 页 


对 训练 中 收敛 速度 的 影响 。 最 后 ,在 仿真 环境 中 进行 了 斜坡 行走 实验 ,实验 结果 验证 了 该 方 
法 的 有 效 性 。 
[0194] (3) 以 小 脑 的 运动 平衡 功能 为 基础 ,从 仿生 学 的 角度 出 发 ,结合 强化 学 习 理 论 搭建 
了 仿 小 脑 的 运动 控制 模型 。 基 于 该 新 型 小 脑 模型 设计 了 自 适 应 在 线 稳定 控制 器 ,该 控制 器 
无 需 机 器 人 系统 的 精确 建 模 , 通 过 采集 机 器 人 的 实时 姿态 信息 来 对 下 肢 关 节 进 行 补偿 控 
制 .为 了 对 控制 器 进行 充分 训练 ,在 仿真 环境 中 搭建 了 稳定 性 训练 平台 来 模拟 环境 中 的 扰 
动 。 训 练 过 程 中 ,小脑 模型 基于 编码 后 的 状态 信息 激活 相应 的 基本 单元 来 输出 动作 ,并 通过 
下 橄榄 反馈 模块 传递 的 评价 信息 更 新 PF-PC 权 值 直至 控制 器 收敛 。 仿 真实 验 表 明 ,经 过 强化 
学 习 训 练 后 的 小 脑 模 型 具备 了 维持 机 器 人 平衡 的 能 力 。 相 较 于 无 小 脑 模型 在 线 调 整 的 机 器 
人 ,有 小 脑 模 型 的 机 器 人 在 斜坡 环境 中 取得 了 更 优秀 的 表现 。 

[0195] ”本 发 明 以 ROBOTIS-0P2 小 型 仿 人 机 器 人 作为 研究 平台 ,致力 于 研究 其 在 复杂 环境 
中 稳定 行走 的 方法 ,首先 ,基于 ZMP 理 论 和 三 次 样 条 插值 法 确定 了 仿 人 机 器 人 的 离线 步行 模 
式 , 并 使 用 神经 网 络 对 策略 进行 拟 合 , 基 于 ActorCritic 算 法 实现 连续 状态 输入 下 的 在 线 稳 
定 控 制 。. 之 后 ,利用 控制 学 方法 进一步 建立 了 基于 小 脑 机 理 和 强化 学 习 的 机 器 人 仿生 挖 上 
模型 .为 了 提高 开发 效率 ,以 及 提供 算法 的 实验 验证 平台 ,开发 了 跨 平 台 、 跨 语言 的 联合 仿 
真 系统 。 

[0196] ”本 发 明 在 分 析 了 ROBOTIS-0P2 的 主要 参数 和 结构 性 能 的 基础 上 ,设计 了 离线 步 态 
规划 方法 ,针对 离线 步 态 无 法 适应 复杂 坏 境 的 问题 ,提出 了 一 种 基于 Actor Critic 强 化 学 
习 算 法 的 在 线 稳定 性 控制 方法 。 通 过 直接 接收 连续 的 状态 信息 ,该 方法 实现 了 输入 信号 到 
输出 关节 角度 补偿 值 的 端 到 端 控制 ,在 此 基础 上 使 用 三 次 样 条 插值 法 构建 了 动作 衰减 策 
略 ,实现 了 动作 之 间 的 平滑 过 渡 。 为 了 提高 收敛 速度 ,设计 了 连续 型 立即 回报 值 函 数 , 提 高 
了 学 习 效 率 。 
[0197] ”本 发 明 在 强化 学 习 的 基础 上 ,进一步 研究 小 脑 的 运动 控制 机 理 , 设 计 了 基于 仿生 
强化 学 习 型 小 脑 模型 的 在 线 稳定 控制 器 。 该 小 脑 模型 以 小 脑 的 生理 解剖 结构 为 基础 ,在 下 
橄榄 反馈 环节 引入 强化 学 习 机 制 ,通过 学 习 能 够 将 仿 人 机 器 人 行走 过 程 中 的 状态 信息 映射 
到 相应 的 命令 输出 ,实时 调整 机 器 人 步行 姿态 .详细 介绍 了 所 用 的 小 脑 模型 ,以 及 基于 该 模 
型 设计 的 仿 人 机 器 人 步行 稳 定 控制 器 的 整体 框架 和 细节 。 考 虑 到 仿 人 机 器 人 的 训练 和 学 习 
需要 大 量 与 环境 交互 获得 的 数据 ,本 发 明 采 用 在 仿真 环境 中 训练 的 方式 进行 ,基于 Webots 
仿真 软件 搭建 了 跨 平台 跨 语言 的 开发 环境 ,为 研究 中 算法 的 开发 与 实验 验证 葛 定 了 基础 。 
通过 将 程序 编辑 、 编 译 与 运行 过 程 相 分 离 ,对 环境 整体 框架 及 其 各 个 子 模块 做 了 深入 设计 ， 
包括 搭建 过 程 和 用 到 的 工具 ,以 及 一 些 重要 的 应 用 程序 接口 和 环境 中 需要 注意 的 关键 
节 。 最 后 ,在 此 环境 中 进行 了 仿 人 机 器 人 步行 仿真 实验 ,验证 了 上 述 两 种 在 线 稳定 性 控制 方 
法 的 有 效 性 ,并 对 实验 结果 进行 了 分 析 与 探讨 。 

[0198] ”作为 对 于 上 述 实 施 例 中 的 种 基于 ActorCritic 强 化 学 习 算 法 的 仿 人 机 器 人 在 线 步 
行 稳定 控制 方法 ,本 实施 方式 作出 简要 说 明 :一 种 仿 人 机 器 人 步行 控制 方法 ,对 仿 人 机 器 人 
进行 离线 步 态 规划 ,使 仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ; 实 时 采集 
仿 人 机 器 人 行走 过 程 中 的 状态 信息 ,响应 于 状态 信息 的 稳定 控制 器 ,实时 在 线 调整 仿 人 机 
器 人 的 步行 姿态 ,使 其 能 够 在 非 平整 路 面 行走 。 

[0199] ”进一步 的 ,对 仿 人 机 器 人 进行 离线 步 态 规划 的 步骤 如 下 :获取 仿 人 机 器 人 的 多 连 


-> 


Lanny 


EE 


30 


CN 112060082 B 说 明 书 26/30 页 


杆 模 型 ;通过 7ZMP 稳 定性 理论 确定 步 态 子 周期 内 ZMP 移 动 轨迹 ;响应 于 多 连 杆 模型 和 ZMP 移 动 
轨迹 ,进行 机 器 人 躁 关节 与 髋 关节 轨迹 规划 ;响应 于 ZMP 移 动 轨迹 及 躁 关节 、 髋 关节 轨迹 规 
划 ,通过 关节 的 运动 学 关系 获取 下 肢 关 节 的 轨迹 ; 归 因 于 为 提高 ZMP 稳 定 裕 度 、 减 小 躁 关 节 
轨迹 跟踪 误差 ,而 对 关节 旋转 角 使 用 三 次 样 条 法 进行 描述 ;使 用 蚁 群 算法 对 下 肢 关 节 的 轨 
迹 优化 而 得 到 完整 离线 步 态 。 

[0200] ”进一步 的 , 仿 人 机 器 人 在 斜坡 路 面 行走 时 的 状态 信息 作为 稳定 控制 器 输入 ,稳定 
空 制 器 的 + 时 刻 输入 为 : 

[0201] ,sait) [Ff (0 ,0 mtt) 0 a lt) 0 (328) 

[0202] 其 中 ,0 xb ,0 ,(t) ,0 , (t) 分别 为 加 速 传感器 在 三 个 方向 上 采集 的 数值 信 
号 ,f ( 切 是 与 仿 人 机 器 人 的 支撑 脚 有 关 的 变量 ,1 为 左 脚 , -1 为 右 脚 ;在 t 时 刻 ,根据 仿 人 机 器 
人 提供 的 状态 信息 得 到 对 应 的 动作 输出 : 

[0203] a(t)={AO”,AO”,AG”,AO”, Ab,AO | (3.29) 

[0204] ”其 中 ,A9”，A98”"，A8” 分 别 为 右 脚 的 俯仰 轴 躁 关节 、 俯 仰 轴 膝 关节 以 及 俯仰 轴 
髋 关节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; Ab”，A6" ，Ab” 分别 为 左 脚 的 俯仰 轴 踩 


关节 、 俯 仰 轴 膝 关节 以 及 俯仰 轴 髋 关节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; 对 动作 a 
(t) 进行 处 理 : 


[0205] ”Qu sme(f)=Qogme (tj+S(t) 0gt< 


(3.30) 
@ 


[0206] ”其 中 ,a wi (t) 是 关节 实时 输出 角度 ,aurrii。(t) 是 离线 轨迹 的 关节 角度 ,8 是 用 
来 调节 关节 调整 持续 时 间 的 衰减 系数 ,S (t) 是 一 个 自然 边界 条 件 下 的 三 次 样 条 差 值 函数 ， 
由 以 下 约束 确定 : 


S(0)=Ab， | 引 -。 
[0207] (3.31) 

S'(0)= sj- 

C 

[0208] ”其 中 , A 9 是 对 应 关节 的 调整 量 。 
[0209] ”进一步 的 ,稳定 控制 器 的 学 习 方 法 如 下 : (1) 将 仿 人 机 器 人 的 当前 时 刻 的 状态 s (t) 
输入 Actor 神 经 网 络 和 Critic 神 经 网 络 ,Actor 神 经 网 络 提 供 动 作 输 出 a (t) ; (2) 仿 人 机 器 人 
响应 于 离线 步 态 ,并 基于 动作 输出 a (t) 调整 左右 脚 的 俯仰 轴 躁 关节 、 俯 仰 轴 膝 关 节 以 及 俯 
仰 轴 通 关节 的 关节 旋转 角度 ,到 达 新 的 状态 s (t+1) ,计算 对 动作 输出 a (t) 的 奖惩 r (t) ,并 获 
得 此 次 状态 改变 的 经 验 数据 : {s(t) ,a (t) ,s (t+1) ,r (t)}; (3) 根 据 经 验 数 据 计 算 TD 误 差 ; 
(4) 响应 于 TD 误差 ,分别 对 Actor 神 经 网 络 和 Critic 神 经 网 络 的 参数 进行 更 新 。 
[0210] ”进一步 的 ,计算 对 动作 输出 a (t) 的 奖 答 r (t) : 


-0; Gap< Sor sy 
"(1)= 


[0211] (3.32) 


10, 其 他 
[0212] ”或 者 
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-10, 0,,<-Sor0,,>5 


pitch pitch 
= (3.33) 
一 77 


[0213] rl(t 其 他 


itch |» ee 


[0214] “其 中 ,9 ,its 为 俯仰 轴 方 向 上 机 器 人 的 倾角 ,为 回报 值 放大 系数 。 
[0215] ”进一步 的 ,计算 TD 误差 6: 
[0216] 6=rtV(s (t+1),0)-V(s(t),0) (3.24) 
[0217] ”其 中 ,9 表示 Critic 网 络 的 参数 ,V () 表示 值 函数 。 
[0218] ”进一步 的 ,对 Critic 网 络 进行 更 新 : 
[0219] 9 =0 +a "dVV(s(t),0) (3.25) 
[0220] ”其 中 ,9 .表示 Critic 网 络 的 参数 ,8 为 TD ,误差 a 为 Critic 神 经 网 络 的 更 新 步 长 ,更 
新 方向 为 使 损失 函数 最 小 的 方向 ; 
L0221] ”损失 函数 L (9 ) 为 : 
[0222]. LA0) = (rtV(s (ttl) ,0) =:y(s(t) ,0 ))” (3.26) 
[0223] ”对 Actor 网 络 进 行 更 新 : 
[0224] 9 =0 +a’6 Vlnn(als(t) ,0) (3.27) 
[0225] ”其 中 ,9 表示 Actor 网 络 参数 ,a 为 Actor 网 络 的 更 新 步 长 ,n (a|s,9,) 表示 Actor 网 
络 所 代表 的 策略 ,其 中 a 为 Actor 网 络 的 动作 输出 。 
L0226] ”进一步 的 ,通过 7ZMP 稳 定性 理论 确定 步 态 子 周 期 内 ZMP 移 动 轨迹 :一 个 步行 子 周 期 
中 的 ZMP 运 动 轨迹 用 如 下 公式 表示 : 
Xp (1)=7 
7.41 l-o 


0227 Y (4 = 一 一 -3.7 ,0<1 < 一 一 (3.12) 
[ | (1) 1 一 C 2 


i 


[0228] $1, (1)= ,一 一 < < 一 一 (3.13) 


Zn (1) 


1| 
© 


2t—o—l 
[0229] (sr YY les (3.14) 


zmp 


Lmp (7) 二 0 


[0230] 其 中 ,X(t) ,Yj 《(t) ,2s (了 分 别 为 ZMP 在 世界 坐标 系 中 的 坐标 ;s 是 X 方 向 上 足 底 
稳定 区 域 长 度 的 一 半 , 用 来 调节 步行 过 程 中 7ZMP 的 可 移动 范围 ;o 表 示 一 个 步行 子 周 期 中 DSP 
占据 整体 时 长 的 比例 ;a 是 一 个 不 定 变量 ; 


[0231] ” 躁 关 贡 与 通关 节 轨 迹 规 划 的 方法 如 下 : 
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[0232] (1) 躁 关节 轨迹 规划 
[0233] ” 设 X(t) Y(t) 以 及 Z (t) 分 别 为 踩 关 节 在 X 方 向 \Y 方 向 以 及 Z 方 向 上 的 运动 轨迹 ,X/ 
(t) .Y(t) 以 及 Z(t) 表示 关节 运动 速度 ,对 躁 关节 设置 约束 条 件 如 下 : 


28/30 页 


X(0)=-L,, /2 
X(l)=L,.,/2 
[0234] (3.15) 
X'(0)=0 
X'(1)=0 
Z(0)=0 
Z(7T,)=H,,, 
Z(T,)=H,,, 
Z(1)=0 
[0235] (3.16) 
Z'(0)=0 
ZI 人)=0 
Z'(T)=0 
Z'(0)=0 
[0236] “其 中 ,L。。 表 示 右 脚 癌 前 迈步 距离 ,Ho 是 踩 关 节能 到 达 最 高 高 度 ,T. 和 Ti 是 踩 关 
节 在 一 个 步行 周期 中 躁 关节 处 于 最 高 抬 脚 高 度 的 奏 未 时 间 ， 用 来 调节 躁 关节 维持 最 高 高 度 
的 持续 时 间 ，; 
L0237] 根据 式 (3.15) 及 式 (3.16) 的 约束 条 件 , 推 导出 用 三 次 插值 函数 表示 的 躁 关 节 的 轨 
迹 : 
lo2oal". (0) ed i tb 0 tl 8) 
3 末 已 了 
ZU = 一 一 一 一 一 全 一 ,0<f<7， 
/4 a 
[0239] Z(t)=H,,,T, <t<L, (3.18) 
3H,, 1 2! 
ZI = 万。 一 一 + 一 一 下 1 
HU-B) (5) 
[0240] Y(t)=0,0<t<1 (3.19) 
[0241] “” 当 目标 环境 是 非 平 坦 路 面 ,可 能 存在 障碍 物 时 ,根据 预期 的 障碍 物 高 度 对 L.,。 和 
H,,。, 进 行 设置 ; 
[0242] (2) 髋 关节 轨迹 规划 
L0243] 横 深 轴 髋 关节 的 轨迹 : 
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3d, 24d, 
Q(t) = -er, 0<t<t, 
17 f : 
[0244] 4Qs(t)=4d,, ty <t<h i 
-3d, a 2d, 
Qs (1)= 4d, 一 


(1-&) (1-6,) 

[0245] ”其 中 ,tr 和 ti 表示 双 足 支撑 阶段 和 单 足 文 撑 阶段 的 两 个 时 间 分 隔 点 ,dq.; 是 ai (t) 的 
最 大 旋转 角 ; 

[0246] ”通过 关节 的 运动 学 关系 获取 下 上 肢 关 节 的 轨迹 的 方法 如 下 : 

[0247] ”将 航 回 轴 的 两 个 髋 关节 角 设 为 恒定 的 0 ,由 各 关节 和 角 的 运动 学 关系 ,机 器 人 下 上肢 
的 横 深 轴 关 节 和 俯仰 轴 关 节 分 别 有 如 下 关系 : 


Qs,+Q = -0 


wi 十 多: 一 和 

[0248] C= 在 到 (3.22) 
Q; 十 Qo =0, —A/2 
wji+wo=0 

[0249] ” 连 杆 模 型 的 十 个 自由 度 上 的 关节 旋转 角 定义 为 ,~aj,， 
好 俯仰 轴 左 躁 关节 上 6 横滨 轴 右 蟹 关节 
& 俯仰 负 左 膝 关节 & 俯仰 轴 右 膝 关 节 
o& 俯仰 负 左 通关 节 0 横 滚 轴 右 踩 关节 

Gin 俯仰 轴 右 踩 关 节 


fi 


[0251] ”对 关节 旋转 角 a,,a,,a;,as 使 用 三 次 样 条 法 进行 描述 的 方法 

[0252] ”构建 目标 函数 : 

[0253] J=J,+J, +J ,ys (3.23) 

[0254] ”其 中 ,J, 是 行走 过 程 中 的 ZMP 轨 迹 误差 ,J 为 采样 时 刻 躁 关节 跟随 既定 轨迹 的 累加 

误差 ,J ,i 限制 关节 旋转 角度 不 超出 电机 限制 。 

[0255] ”进一步 的 ,上 上 股 关 节 轨 迹 获 取 方 法 如 下 :采用 直接 规划 法 确定 机 器 人 上 半 映 关节 

在 步行 过 程 中 的 运行 轨迹 ,关节 包括 :人 颈 部 的 两 个 关节 、 左 右 肩 部 共 四 个 关节 、 左 右 肘 部 共 

两 个 关节 ,将 颈 部 、 尖 部 关节 设置 为 恒定 的 角度 0° ;左右 肩 部 的 两 个 横 深 轴 关 节 分 别 设置 为 

15 ”和 -15° ;左右 肘 部 两 个 关节 分 别 设置 为 20” 和 -20° ,通过 下 式 描 述 摆 臂 过 程 中 俯仰 轴 肩 

关节 的 运行 轨迹 ,俯仰 轴 肩 左 、 右 关节 旋转 角 随 时 间 变 化 的 关系 如 S(t) 和 5S, (了 所 示 : 
S(t)=20sin(zt—z/2) 


[0256] 3.21) 
(1)=20sin (xt+ zx/2) 


[0257] 一 种 仿 人 机 器 人 步行 控制 方法 ,对 仿 人 机 器 人 进行 离线 步 态 规划 ,使 仿 人 机 器 人 
跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ;响应 于 离线 步 态 ,状态 编码 模块 根据 仿 人 机 
器 人 传感器 采集 到 的 状态 信息 调整 PF 的 激活 状态 ,下 橄榄 反馈 模块 基于 环境 反馈 的 评价 信 
恩 修 改行 为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映 财 模块 根据 小 脑 模型 输出 调节 机 器 
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人 动作 。 
[0258] ”本 发 明 将 采用 离线 步 态 规 划 与 线 稳定 控制 相 结 合 的 方式 实现 仿 人 机 器 人 步行 控 
制 。 基 于 离线 步 态 规划 生成 的 步行 模式 , 仿 人 机 器 人 实现 在 水 平地 面 的 稳定 行走 ;在 线 稳定 
控制 能 在 固定 的 步行 模式 上 通过 传感器 感知 环境 并 进行 实时 的 调整 ,使 仿 人 机 器 人 具备 适 
应 复杂 环境 的 能 力 。 在 线 稳 定 控制 部 分 ,首先 ,本 发 明 使 用 强化 学 习 算法 构建 了 在 线 稳定 控 
制 器 ,使 仿 人 机 器 人 能 通过 自主 学 习 在 行走 过 程 中 自 适 应 的 调整 下 胶 关 节 以 维持 平衡 。 强 
化 学 习 是 一 种 智能 控制 方法 ,来 源 于 对 人 类 学 习 行为 的 观察 与 研究 ,而 小 脑 是 维持 身体 平 
衡 以 及 协调 运动 的 中 枢 , 具 有 强大 的 学 习 能 力 与 可 塑性 ,开发 类 小 脑 的 仿生 控制 模型 对 控 
Re el Ls 总 义 。 我 们 本 着 基于 小 脑 机 理 来 构建 仿 人 机 器 
空 制 方法 的 目的 ,进一步 深入 研究 了 小 脑 的 解剖 与 生理 学 结构 ,并 且 引 入 强化 学 习 机 制 
建立 了 基于 小 脑 的 仿生 控制 模型 ,以 此 来 提高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平衡 能 
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图 7 
杂 
) @) 
(a) (b) 
图 8 


输入 状态 s(t)， 获 得 动作 a(t) 


执行 动作 ， 获 得 反馈 


本 轮 学 习 结束 ? 
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